ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion
作者: HanZpeng Liu, Yaqian Li, Zidan Wang, Shuoxi Zhang, Zonglin Zhao, Zihao Bo, Rinyoichi Takezoe, Kaiwen Long, Kun He
分类: cs.CV, cs.AI
发布日期: 2026-03-03
💡 一句话要点
ITO:通过协同多重对齐和训练时融合,实现图像和文本的统一表示
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像-文本对比学习 多模态融合 跨模态表征学习 多重对齐 训练时融合 视觉表征学习 对比学习
📋 核心要点
- 现有图像-文本对比学习方法存在模态间信息组织不充分的问题,导致表征学习效果受限。
- ITO框架通过多重对齐挖掘图像-文本对应关系,并利用训练时融合模块增强跨模态交互,提升表征质量。
- 实验结果表明,ITO在分类、检索和多模态任务上均优于现有方法,验证了其有效性。
📝 摘要(中文)
图像-文本对比预训练已成为视觉表征学习的主流范式,但现有方法生成的表征通常仍然部分地按模态组织。我们提出了ITO,一个通过两种协同机制解决此限制的框架。多模态多重对齐通过挖掘多样化的图像-文本对应关系来丰富监督,而轻量级的训练时多模态融合模块则强制执行结构化的跨模态交互。至关重要的是,融合模块在推理时被丢弃,从而保留了标准双编码器架构的效率。广泛的实验表明,ITO在分类、检索和多模态基准测试中始终优于强大的基线。我们的分析表明,虽然多重对齐驱动了判别能力,但训练时融合充当了关键的结构正则化器——消除了模态差距并稳定了训练动态,从而防止了在激进的对比学习中经常观察到的早期饱和。
🔬 方法详解
问题定义:现有图像-文本对比学习方法生成的表征,在模态之间仍然存在明显的组织结构,即模型倾向于学习到模态特定的特征,而不是真正融合的跨模态特征。这限制了模型在需要理解图像和文本之间复杂关系的任务中的表现。现有方法的痛点在于缺乏有效的机制来弥合模态差距,并防止模型过早饱和。
核心思路:ITO的核心思路是通过多重对齐和训练时融合两种协同机制,增强图像和文本之间的交互,从而学习到更统一的跨模态表征。多重对齐旨在挖掘更丰富的图像-文本对应关系,提供更全面的监督信号。训练时融合则通过引入一个轻量级的融合模块,强制模型在训练过程中进行跨模态信息交互,从而弥合模态差距。
技术框架:ITO框架基于标准的双编码器架构。在训练阶段,首先使用图像编码器和文本编码器分别提取图像和文本的特征。然后,利用多重对齐模块挖掘图像和文本之间的多种对应关系,生成更丰富的对比学习样本。接着,将图像和文本特征输入到训练时融合模块中,进行跨模态信息融合。最后,使用对比损失函数优化模型参数。在推理阶段,丢弃训练时融合模块,仅使用图像编码器和文本编码器提取特征,保持推理效率。
关键创新:ITO的关键创新在于多重对齐和训练时融合的协同使用。多重对齐通过挖掘更丰富的图像-文本对应关系,增强了对比学习的监督信号。训练时融合则通过引入一个轻量级的融合模块,强制模型在训练过程中进行跨模态信息交互,从而弥合模态差距。与现有方法相比,ITO能够学习到更统一的跨模态表征,并且在推理时保持高效。
关键设计:多重对齐模块通过计算图像和文本之间的相似度矩阵,并选择多个相似度较高的图像-文本对作为正样本。训练时融合模块采用一个轻量级的Transformer结构,将图像和文本特征作为输入,输出融合后的特征。对比损失函数采用InfoNCE损失,用于最大化正样本之间的相似度,最小化负样本之间的相似度。训练时融合模块在推理时被丢弃,以保持推理效率。
🖼️ 关键图片
📊 实验亮点
ITO在多个基准测试中取得了显著的性能提升。在图像检索任务中,ITO在Recall@1指标上优于现有方法多个百分点。在视觉问答任务中,ITO也取得了 comparable 甚至更好的结果。消融实验表明,多重对齐和训练时融合模块均对性能提升有贡献,验证了ITO框架的有效性。此外,分析表明,训练时融合能够有效消除模态差距,并稳定训练过程。
🎯 应用场景
ITO框架具有广泛的应用前景,可应用于图像检索、视觉问答、图像描述生成等多个领域。通过学习更统一的跨模态表征,ITO能够提升模型在这些任务中的性能。此外,ITO还可以应用于跨模态迁移学习,将从大规模图像-文本数据集中学习到的知识迁移到其他视觉任务中,提高模型的泛化能力。未来,ITO有望成为多模态表征学习的重要基石。
📄 摘要(原文)
Image-text contrastive pretraining has become a dominant paradigm for visual representation learning, yet existing methods often yield representations that remain partially organized by modality. We propose ITO, a framework addressing this limitation through two synergistic mechanisms. Multimodal multiple alignment enriches supervision by mining diverse image-text correspondences, while a lightweight training-time multimodal fusion module enforces structured cross-modal interaction. Crucially, the fusion module is discarded at inference, preserving the efficiency of standard dual-encoder architectures. Extensive experiments show that ITO consistently outperforms strong baselines across classification, retrieval, and multimodal benchmarks. Our analysis reveals that while multiple alignment drives discriminative power, training-time fusion acts as a critical structural regularizer -- eliminating the modality gap and stabilizing training dynamics to prevent the early saturation often observed in aggressive contrastive learning.