Generalized Contrastive Learning for Universal Multimodal Retrieval

📄 arXiv: 2509.25638v1 📥 PDF

作者: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi

分类: cs.CV, cs.LG

发布日期: 2025-09-30

备注: Accepted to NeurIPS 2025


💡 一句话要点

提出广义对比学习GCL,解决通用多模态检索中组合模态泛化性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 对比学习 跨模态学习 图像文本检索 统一表示学习

📋 核心要点

  1. 现有跨模态检索模型在处理图像-文本组合模态时性能显著下降,通用性不足。
  2. 提出广义对比学习(GCL),通过跨模态对比学习,学习统一表示空间,无需额外数据标注。
  3. 在多个基准数据集上,GCL显著提升了现有模型(如VISTA、CLIP)的多模态检索性能。

📝 摘要(中文)

本文提出了一种广义对比学习(GCL)方法,旨在解决跨模态检索模型在检索融合图像-文本模态(例如,包含图像和文本的维基百科页面)时性能下降的问题。现有的多模态检索方法通常需要构建新的图像-文本三元组数据集,这需要大量的人工标注,并且难以泛化到未见过的模态组合。为了克服这些限制,GCL通过在mini-batch中跨所有模态强制执行对比学习,利用现有的图像-标题配对数据集来学习统一的表示空间,从而提高多模态检索性能,而无需繁琐的新数据集标注。在M-BEIR、MMEB和CoVR基准测试中,GCL在VISTA、CLIP和TinyCLIP等现成的多模态检索模型上表现出一致的性能提升。

🔬 方法详解

问题定义:现有的跨模态检索模型,如CLIP,在处理由多种模态组合而成的数据时,性能会显著下降。例如,当检索目标是包含图像和文本的网页时,这些模型的效果往往不如处理单一模态数据。现有方法通常需要针对特定的模态组合构建新的数据集,这需要大量的人工标注和数据清洗,并且难以泛化到未见过的模态组合。

核心思路:本文的核心思路是通过广义对比学习,在现有的图像-文本配对数据集上,学习一个统一的表示空间。GCL的目标是使得来自同一图像-文本对的表示尽可能接近,而来自不同图像-文本对的表示尽可能远离。通过这种方式,模型可以学习到不同模态之间的关联性,从而提高在各种模态组合下的检索性能。

技术框架:GCL的技术框架主要包括以下几个步骤:1) 从现有的图像-文本配对数据集中抽取mini-batch;2) 使用预训练的跨模态模型(如CLIP)提取图像和文本的特征表示;3) 使用GCL损失函数计算mini-batch中所有图像和文本表示之间的对比损失;4) 使用梯度下降法更新模型参数,从而学习到更好的统一表示空间。

关键创新:GCL的关键创新在于其损失函数的设计。传统的对比学习通常只考虑正样本和负样本之间的关系,而GCL则考虑了mini-batch中所有样本之间的关系。具体来说,GCL将mini-batch中的每个样本都视为一个查询,然后计算该查询与mini-batch中所有其他样本之间的相似度。通过最大化正样本的相似度,最小化负样本的相似度,GCL可以学习到更加鲁棒和泛化的表示。与现有方法相比,GCL不需要构建新的数据集,并且可以很容易地应用于各种跨模态模型。

关键设计:GCL的关键设计在于对比损失函数的具体形式。论文中使用的对比损失函数是基于InfoNCE损失的变体。具体来说,对于mini-batch中的每个图像-文本对(i, t),GCL计算图像i和文本t之间的相似度,以及图像i和mini-batch中所有其他文本的相似度。然后,GCL使用softmax函数将这些相似度转换为概率分布,并使用交叉熵损失函数来衡量预测概率分布和真实概率分布之间的差异。此外,GCL还引入了一个温度参数来控制softmax函数的锐度,从而影响对比学习的效果。

📊 实验亮点

实验结果表明,GCL在M-BEIR、MMEB和CoVR等多个基准数据集上,显著提升了VISTA、CLIP和TinyCLIP等现有模型的性能。例如,在M-BEIR数据集上,GCL将CLIP的检索准确率提高了5%以上。这些结果证明了GCL的有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于多模态信息检索领域,例如图像-文本检索、视频-文本检索等。在实际应用中,可以利用该方法构建一个统一的检索系统,能够处理各种模态组合的查询,从而提高检索效率和用户体验。例如,用户可以使用一张图片或者一段文字来检索包含相关信息的网页、文档或视频。

📄 摘要(原文)

Despite their consistent performance improvements, cross-modal retrieval models (e.g., CLIP) show degraded performances with retrieving keys composed of fused image-text modality (e.g., Wikipedia pages with both images and text). To address this critical challenge, multimodal retrieval has been recently explored to develop a unified single retrieval model capable of retrieving keys across diverse modality combinations. A common approach involves constructing new composed sets of image-text triplets (e.g., retrieving a pair of image and text given a query image). However, such an approach requires careful curation to ensure the dataset quality and fails to generalize to unseen modality combinations. To overcome these limitations, this paper proposes Generalized Contrastive Learning (GCL), a novel loss formulation that improves multimodal retrieval performance without the burdensome need for new dataset curation. Specifically, GCL operates by enforcing contrastive learning across all modalities within a mini-batch, utilizing existing image-caption paired datasets to learn a unified representation space. We demonstrate the effectiveness of GCL by showing consistent performance improvements on off-the-shelf multimodal retrieval models (e.g., VISTA, CLIP, and TinyCLIP) using the M-BEIR, MMEB, and CoVR benchmarks.