Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality

📄 arXiv: 2603.01471v1 📥 PDF

作者: Jiahan Chen, Da Li, Hengran Zhang, Yinqiong Cai, Lixin Su, Jiafeng Guo, Daiting Shi, Dawei Yin, Keping Bi

分类: cs.IR, cs.LG

发布日期: 2026-03-02


💡 一句话要点

提出基于协同注意力的内容重建预训练方法CoCoA,提升多模态嵌入质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 内容重建 协同注意力 预训练 多模态大语言模型

📋 核心要点

  1. 现有MLLM虽然在生成任务表现出色,但其因果注意力和下一token预测范式不利于形成紧凑的全局表示,限制了其在多模态嵌入任务中的效果。
  2. CoCoA通过重构注意力流和引入基于EOS的重建任务,促使模型将输入信息压缩到 token,从而生成更紧凑和信息丰富的嵌入。
  3. 在MMEB-V1上的实验表明,CoCoA显著提升了基于Qwen2-VL和Qwen2.5-VL的多模态嵌入模型的性能,验证了内容重建的有效性。

📝 摘要(中文)

多模态嵌入模型,特别是基于多模态大语言模型(MLLM)的模型,在检索和分类等任务中取得了显著的性能提升。然而,现有方法主要依赖于大规模对比学习,对MLLM的架构和训练范式如何影响嵌入质量的探索不足。MLLM的因果注意力和下一token预测范式虽然适用于生成任务,但没有明确地鼓励形成全局紧凑的表示,限制了它们作为多模态嵌入骨干网络的有效性。为了解决这个问题,我们提出了CoCoA,一种基于协同注意力的内容重建预训练范式,用于多模态嵌入优化。具体来说,我们重构了注意力流,并引入了基于EOS的重建任务,鼓励模型从相应的嵌入中重建输入。这促使多模态模型将输入的语义信息压缩到 token中,为后续的对比学习奠定基础。在MMEB-V1上的大量实验表明,基于Qwen2-VL和Qwen2.5-VL构建的CoCoA显著提高了嵌入质量。结果验证了内容重建是一种有效的策略,可以最大限度地利用现有数据,使多模态嵌入模型生成紧凑且信息丰富的表示,从而提高其性能上限。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在作为多模态嵌入骨干网络时,由于其固有的因果注意力和下一token预测范式,难以生成全局紧凑且信息丰富的嵌入表示的问题。现有方法主要依赖大规模对比学习,忽略了MLLM架构和训练范式对嵌入质量的影响。

核心思路:论文的核心思路是通过内容重建预训练,显式地引导模型学习将输入的多模态信息压缩到一个紧凑的表示中。具体来说,通过重构注意力流和引入基于EOS的重建任务,迫使模型从 token中重建输入,从而鼓励模型学习更有效的嵌入表示。

技术框架:CoCoA的整体框架包括以下几个关键部分:1) 修改注意力机制,实现协同注意力;2) 引入基于 token的内容重建任务;3) 利用重建任务进行预训练,使模型学习将输入信息压缩到 token中;4) 在预训练的基础上,进行对比学习,进一步优化嵌入表示。

关键创新:CoCoA的关键创新在于提出了基于协同注意力的内容重建预训练范式。与传统的对比学习方法不同,CoCoA通过显式的内容重建任务,引导模型学习更紧凑和信息丰富的嵌入表示。这种方法能够更好地利用现有数据,提高多模态嵌入模型的性能上限。

关键设计:在注意力机制方面,论文可能修改了标准的自注意力机制,使其更适合内容重建任务。损失函数方面,采用了重建损失,衡量模型从 token重建输入的能力。具体参数设置和网络结构细节可能依赖于所使用的基础MLLM模型(如Qwen2-VL和Qwen2.5-VL)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Qwen2-VL和Qwen2.5-VL构建的CoCoA在MMEB-V1数据集上显著提高了嵌入质量。具体性能提升数据(如检索准确率、分类精度等)需要在论文中查找。该结果验证了内容重建作为一种有效策略,能够提升多模态嵌入模型的性能上限。

🎯 应用场景

该研究成果可广泛应用于多模态信息检索、跨模态内容理解、图像/视频分类、视觉问答等领域。通过提升多模态嵌入的质量,可以提高相关应用的性能和用户体验。未来,该方法有望进一步扩展到更多模态和更复杂的任务中,推动多模态人工智能的发展。

📄 摘要(原文)

Multimodal embedding models, rooted in multimodal large language models (MLLMs), have yielded significant performance improvements across diverse tasks such as retrieval and classification. However, most existing approaches rely heavily on large-scale contrastive learning, with limited exploration of how the architectural and training paradigms of MLLMs affect embedding quality. While effective for generation, the causal attention and next-token prediction paradigm of MLLMs does not explicitly encourage the formation of globally compact representations, limiting their effectiveness as multimodal embedding backbones. To address this, we propose CoCoA, a Content reconstruction pre-training paradigm based on Collaborative Attention for multimodal embedding optimization. Specifically, we restructure the attention flow and introduce an EOS-based reconstruction task, encouraging the model to reconstruct input from the corresponding embeddings. This drives the multimodal model to compress the semantic information of the input into the token, laying the foundations for subsequent contrastive learning. Extensive experiments on MMEB-V1 demonstrate that CoCoA built upon Qwen2-VL and Qwen2.5-VL significantly improves embedding quality. Results validate that content reconstruction serves as an effective strategy to maximize the value of existing data, enabling multimodal embedding models generate compact and informative representations, raising their performance ceiling.