TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

📄 arXiv: 2603.02929v1 📥 PDF

作者: Xiangzhao Hao, Shijie Wang, Tianyu Yang, Tianyue Wang, Haiyun Guo, JinQiao Wang

分类: cs.CV

发布日期: 2026-03-03


💡 一句话要点

提出TRACE,通过任务自适应推理和表征学习实现通用多模态检索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 思维链 表征学习 任务自适应 零样本学习

📋 核心要点

  1. 现有通用多模态检索方法难以处理需要逻辑推理的复杂用户意图,仅依赖静态编码器进行模式匹配。
  2. TRACE通过生成式推理和判别式表征学习相结合,显式推理查询并压缩为紧凑嵌入,实现任务自适应。
  3. TRACE在M-BEIR基准上达到SOTA,并展现出隐式路由行为和优秀的零样本迁移能力。

📝 摘要(中文)

通用多模态检索需要统一的嵌入模型,能够理解从简单关键词到复杂组合指令的各种用户意图。虽然多模态大型语言模型(MLLM)具有强大的推理能力,但现有的适配方法将其限制在静态编码器中,未能充分利用其生成潜力。这种仅编码器的范式难以处理需要逻辑推理而非表面模式匹配的复杂意图。为了解决这个问题,我们提出了TRACE(任务自适应推理和压缩嵌入)。TRACE统一了生成式推理和判别式表征学习。它首先生成一个结构化的思维链(CoT)来显式地推理查询,然后通过一个专用的token将这个推理轨迹压缩成一个紧凑的嵌入。为了训练这个框架,我们构建了M-BEIR-CoT,一个具有难度感知路由策略的大规模数据集。在M-BEIR基准上的实验表明,TRACE是新的state-of-the-art。TRACE展示了一种学习到的隐式路由行为,它能自主地为复杂查询激活推理,而绕过简单查询,从而在检索精度和推理吞吐量之间实现最佳平衡。此外,通过内化演绎过程,TRACE对未见过的领域和新的约束表现出卓越的零样本迁移能力。

🔬 方法详解

问题定义:论文旨在解决通用多模态检索中,现有方法难以处理复杂用户意图的问题。现有方法,特别是基于静态编码器的模型,在面对需要逻辑推理而非简单模式匹配的查询时表现不佳,限制了其在复杂场景下的应用。

核心思路:论文的核心思路是将生成式推理与判别式表征学习相结合。通过显式地生成思维链(Chain-of-Thought, CoT)来推理查询,然后将推理过程压缩成一个紧凑的嵌入向量。这样做的目的是让模型能够理解查询背后的逻辑,从而更好地进行检索。

技术框架:TRACE框架包含两个主要阶段:1) 生成式推理阶段:使用多模态大型语言模型(MLLM)生成结构化的CoT,显式地推理查询。2) 判别式表征学习阶段:将生成的CoT通过一个专用的token压缩成一个紧凑的嵌入向量,用于后续的检索任务。为了训练该框架,论文构建了一个大规模数据集M-BEIR-CoT,该数据集具有难度感知路由策略。

关键创新:TRACE的关键创新在于统一了生成式推理和判别式表征学习,并引入了任务自适应的推理机制。与现有方法不同,TRACE不是简单地将查询编码成一个向量,而是通过显式地推理查询来理解其背后的逻辑。此外,TRACE还展现出一种学习到的隐式路由行为,能够根据查询的复杂度自动选择是否进行推理。

关键设计:M-BEIR-CoT数据集的设计是关键。它包含各种难度的查询,并采用难度感知路由策略,使得模型能够学习到任务自适应的推理机制。此外,用于压缩CoT的专用token的设计也很重要,它能够将推理过程有效地压缩成一个紧凑的嵌入向量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRACE在M-BEIR基准测试中取得了state-of-the-art的结果,超越了现有的方法。TRACE展现出学习到的隐式路由行为,能够根据查询的复杂度自动选择是否进行推理,从而在检索精度和推理吞吐量之间实现最佳平衡。此外,TRACE还表现出卓越的零样本迁移能力。

🎯 应用场景

TRACE可应用于各种多模态检索场景,例如图像搜索、视频搜索、跨模态信息检索等。其任务自适应推理能力使其能够处理复杂的查询意图,提高检索精度。此外,TRACE的零样本迁移能力使其能够快速适应新的领域和约束,具有广泛的应用前景。

📄 摘要(原文)

Universal Multimodal Retrieval requires unified embedding models capable of interpreting diverse user intents, ranging from simple keywords to complex compositional instructions. While Multimodal Large Language Models (MLLMs) possess strong reasoning capabilities, prevailing adaptations confine them to static encoders, underutilizing their generative potential. This encoder-only paradigm struggles with complex intents that demand logical deduction rather than superficial pattern matching. To address this, we introduce TRACE (Task-adaptive Reasoning And Compressing Embeddings). TRACE unifies generative reasoning with discriminative representation learning. It first generates a structured Chain-of-Thought (CoT) to explicitly reason about the query, and subsequently compresses this reasoning trace into a compact embedding via a dedicated token. To train this framework, we construct M-BEIR-CoT, a large-scale dataset featuring a difficulty-aware routing strategy. Experiments on the M-BEIR benchmark establish TRACE as the new state-of-the-art. Crucially, TRACE demonstrates a learned implicit routing behavior. It autonomously activates reasoning for complex queries while bypassing it for simpler ones, achieving an optimal balance between retrieval accuracy and inference throughput. Furthermore, by internalizing the deductive process, TRACE exhibits remarkable zero-shot transferability to unseen domains and novel constraints.