OmniRet: Efficient and High-Fidelity Omni Modality Retrieval
作者: Chuong Huynh, Manh Luong, Abhinav Shrivastava
分类: cs.IR, cs.CL, cs.CV
发布日期: 2026-03-02
备注: CVPR 2026. Project link: https://github.com/hmchuong/omniret
💡 一句话要点
OmniRet:提出一种高效且高保真的全模态检索模型,支持文本、视觉和音频的复杂组合查询。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 跨模态学习 音频检索 视频检索 注意力机制 Wasserstein距离 组合查询
📋 核心要点
- 现有技术在多模态检索中主要集中于文本和视觉两种模态,无法有效处理包含音频的复杂组合查询。
- OmniRet通过注意力重采样和注意力切片Wasserstein池化,在保证计算效率的同时,提升了全模态表示的保真度。
- 实验结果表明,OmniRet在组合查询、音频和视频检索任务上取得了显著提升,并提出了新的以音频为中心的多模态基准。
📝 摘要(中文)
多模态检索的任务是从异构模态的查询中聚合信息,以检索所需的目标。目前最先进的多模态检索模型能够理解复杂的查询,但通常仅限于文本和视觉两种模态。这种限制阻碍了能够理解结合两种以上模态的查询的通用检索系统的发展。为了朝着这个目标迈进,我们提出了OmniRet,这是第一个能够处理跨越三个关键模态(文本、视觉和音频)的复杂组合查询的检索模型。我们的OmniRet模型解决了通用检索的两个关键挑战:计算效率和表示保真度。首先,将来自特定模态编码器的大量token序列输入到大型语言模型(LLM)中,计算效率低下。因此,我们引入了一种基于注意力的重采样机制,以从这些序列生成紧凑的、固定大小的表示。其次,将丰富的全模态数据压缩成单个嵌入向量不可避免地会导致信息丢失并丢弃细粒度的细节。我们提出了注意力切片Wasserstein池化来保留这些细粒度的细节,从而改进全模态表示。OmniRet在包含约600万个查询-目标对的30个数据集的聚合上进行训练。我们在13个检索任务和一个MMEBv2子集上对我们的模型进行了基准测试。我们的模型在组合查询、音频和视频检索任务上表现出显着改进,同时在其他任务上实现了与最先进模型相当的性能。此外,我们策划了一个新的以音频为中心的多模态基准(ACM)。这个新的基准引入了两个关键的、以前缺失的任务——组合音频检索和视听检索,以更全面地评估模型的全模态嵌入能力。
🔬 方法详解
问题定义:论文旨在解决现有技术在处理包含文本、视觉和音频三种模态的复杂组合查询时存在的局限性。现有方法通常只关注文本和视觉两种模态,或者在处理多模态数据时效率低下,并且容易丢失细粒度的信息。
核心思路:论文的核心思路是通过高效的表示学习方法,将来自不同模态的信息融合到一个统一的嵌入空间中,同时尽可能地保留原始数据的细粒度信息。具体来说,论文提出了注意力重采样机制来压缩模态特征序列,并使用注意力切片Wasserstein池化来保留细粒度信息。
技术框架:OmniRet模型的整体框架包括以下几个主要模块:1) 模态特定编码器:用于提取文本、视觉和音频数据的特征表示。2) 注意力重采样模块:用于将模态特征序列压缩成固定大小的向量表示。3) 注意力切片Wasserstein池化模块:用于融合不同模态的向量表示,并保留细粒度信息。4) 检索模块:用于根据查询嵌入向量,在目标数据库中检索最相关的目标。
关键创新:论文的关键创新点在于提出了注意力重采样机制和注意力切片Wasserstein池化。注意力重采样机制能够有效地压缩模态特征序列,降低计算复杂度。注意力切片Wasserstein池化能够更好地保留细粒度信息,提升检索性能。与现有方法相比,OmniRet能够更有效地处理包含多种模态的复杂查询。
关键设计:注意力重采样模块使用多头注意力机制来选择重要的特征,并将其压缩成固定大小的向量。注意力切片Wasserstein池化模块使用切片Wasserstein距离来衡量不同模态嵌入向量之间的相似度,并使用注意力机制来加权不同切片的重要性。损失函数包括对比损失和三元组损失,用于优化嵌入空间的结构。
🖼️ 关键图片
📊 实验亮点
OmniRet在13个检索任务和一个MMEBv2子集上进行了评估,并在组合查询、音频和视频检索任务上取得了显著的改进。此外,论文还提出了一个新的以音频为中心的多模态基准(ACM),为未来的研究提供了新的评估标准。
🎯 应用场景
OmniRet具有广泛的应用前景,例如跨模态信息检索、智能助手、多媒体内容理解等。它可以应用于视频搜索、音乐推荐、图像检索等领域,提升用户体验。未来,该技术可以进一步扩展到更多的模态,例如3D模型、传感器数据等,构建更强大的通用检索系统。
📄 摘要(原文)
Multimodal retrieval is the task of aggregating information from queries across heterogeneous modalities to retrieve desired targets. State-of-the-art multimodal retrieval models can understand complex queries, yet they are typically limited to two modalities: text and vision. This limitation impedes the development of universal retrieval systems capable of comprehending queries that combine more than two modalities. To advance toward this goal, we present OmniRet, the first retrieval model capable of handling complex, composed queries spanning three key modalities: text, vision, and audio. Our OmniRet model addresses two critical challenges for universal retrieval: computational efficiency and representation fidelity. First, feeding massive token sequences from modality-specific encoders to Large Language Models (LLMs) is computationally inefficient. We therefore introduce an attention-based resampling mechanism to generate compact, fixed-size representations from these sequences. Second, compressing rich omni-modal data into a single embedding vector inevitably causes information loss and discards fine-grained details. We propose Attention Sliced Wasserstein Pooling to preserve these fine-grained details, leading to improved omni-modal representations. OmniRet is trained on an aggregation of approximately 6 million query-target pairs spanning 30 datasets. We benchmark our model on 13 retrieval tasks and a MMEBv2 subset. Our model demonstrates significant improvements on composed query, audio and video retrieval tasks, while achieving on-par performance with state-of-the-art models on others. Furthermore, we curate a new Audio-Centric Multimodal Benchmark (ACM). This new benchmark introduces two critical, previously missing tasks-composed audio retrieval and audio-visual retrieval to more comprehensively evaluate a model's omni-modal embedding capacity.