ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

作者: HanZpeng Liu, Yaqian Li, Zidan Wang, Shuoxi Zhang, Zonglin Zhao, Zihao Bo, Rinyoichi Takezoe, Kaiwen Long, Kun He

分类: cs.CV, cs.AI

发布日期: 2026-03-03

💡 一句话要点

ITO：通过协同多重对齐和训练时融合，实现图像和文本的统一表示

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像-文本对比学习 多模态融合 跨模态表征学习 多重对齐 训练时融合 视觉表征学习 对比学习

📋 核心要点

现有图像-文本对比学习方法存在模态间信息组织不充分的问题，导致表征学习效果受限。
ITO框架通过多重对齐挖掘图像-文本对应关系，并利用训练时融合模块增强跨模态交互，提升表征质量。
实验结果表明，ITO在分类、检索和多模态任务上均优于现有方法，验证了其有效性。

📝 摘要（中文）

图像-文本对比预训练已成为视觉表征学习的主流范式，但现有方法生成的表征通常仍然部分地按模态组织。我们提出了ITO，一个通过两种协同机制解决此限制的框架。多模态多重对齐通过挖掘多样化的图像-文本对应关系来丰富监督，而轻量级的训练时多模态融合模块则强制执行结构化的跨模态交互。至关重要的是，融合模块在推理时被丢弃，从而保留了标准双编码器架构的效率。广泛的实验表明，ITO在分类、检索和多模态基准测试中始终优于强大的基线。我们的分析表明，虽然多重对齐驱动了判别能力，但训练时融合充当了关键的结构正则化器——消除了模态差距并稳定了训练动态，从而防止了在激进的对比学习中经常观察到的早期饱和。

🔬 方法详解

问题定义：现有图像-文本对比学习方法生成的表征，在模态之间仍然存在明显的组织结构，即模型倾向于学习到模态特定的特征，而不是真正融合的跨模态特征。这限制了模型在需要理解图像和文本之间复杂关系的任务中的表现。现有方法的痛点在于缺乏有效的机制来弥合模态差距，并防止模型过早饱和。

核心思路：ITO的核心思路是通过多重对齐和训练时融合两种协同机制，增强图像和文本之间的交互，从而学习到更统一的跨模态表征。多重对齐旨在挖掘更丰富的图像-文本对应关系，提供更全面的监督信号。训练时融合则通过引入一个轻量级的融合模块，强制模型在训练过程中进行跨模态信息交互，从而弥合模态差距。

技术框架：ITO框架基于标准的双编码器架构。在训练阶段，首先使用图像编码器和文本编码器分别提取图像和文本的特征。然后，利用多重对齐模块挖掘图像和文本之间的多种对应关系，生成更丰富的对比学习样本。接着，将图像和文本特征输入到训练时融合模块中，进行跨模态信息融合。最后，使用对比损失函数优化模型参数。在推理阶段，丢弃训练时融合模块，仅使用图像编码器和文本编码器提取特征，保持推理效率。

关键创新：ITO的关键创新在于多重对齐和训练时融合的协同使用。多重对齐通过挖掘更丰富的图像-文本对应关系，增强了对比学习的监督信号。训练时融合则通过引入一个轻量级的融合模块，强制模型在训练过程中进行跨模态信息交互，从而弥合模态差距。与现有方法相比，ITO能够学习到更统一的跨模态表征，并且在推理时保持高效。

关键设计：多重对齐模块通过计算图像和文本之间的相似度矩阵，并选择多个相似度较高的图像-文本对作为正样本。训练时融合模块采用一个轻量级的Transformer结构，将图像和文本特征作为输入，输出融合后的特征。对比损失函数采用InfoNCE损失，用于最大化正样本之间的相似度，最小化负样本之间的相似度。训练时融合模块在推理时被丢弃，以保持推理效率。

🖼️ 关键图片

📊 实验亮点

ITO在多个基准测试中取得了显著的性能提升。在图像检索任务中，ITO在Recall@1指标上优于现有方法多个百分点。在视觉问答任务中，ITO也取得了 comparable 甚至更好的结果。消融实验表明，多重对齐和训练时融合模块均对性能提升有贡献，验证了ITO框架的有效性。此外，分析表明，训练时融合能够有效消除模态差距，并稳定训练过程。

🎯 应用场景

ITO框架具有广泛的应用前景，可应用于图像检索、视觉问答、图像描述生成等多个领域。通过学习更统一的跨模态表征，ITO能够提升模型在这些任务中的性能。此外，ITO还可以应用于跨模态迁移学习，将从大规模图像-文本数据集中学习到的知识迁移到其他视觉任务中，提高模型的泛化能力。未来，ITO有望成为多模态表征学习的重要基石。

📄 摘要（原文）

Image-text contrastive pretraining has become a dominant paradigm for visual representation learning, yet existing methods often yield representations that remain partially organized by modality. We propose ITO, a framework addressing this limitation through two synergistic mechanisms. Multimodal multiple alignment enriches supervision by mining diverse image-text correspondences, while a lightweight training-time multimodal fusion module enforces structured cross-modal interaction. Crucially, the fusion module is discarded at inference, preserving the efficiency of standard dual-encoder architectures. Extensive experiments show that ITO consistently outperforms strong baselines across classification, retrieval, and multimodal benchmarks. Our analysis reveals that while multiple alignment drives discriminative power, training-time fusion acts as a critical structural regularizer -- eliminating the modality gap and stabilizing training dynamics to prevent the early saturation often observed in aggressive contrastive learning.

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理