Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

作者: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola

分类: cs.LG, cs.CV

发布日期: 2025-10-09

备注: 63 pages, 29 tables, and 47 figures

💡 一句话要点

提出UML，利用非配对多模态数据增强单模态模型表示学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 非配对学习 多模态学习 表示学习 单模态模型 跨模态融合

📋 核心要点

现有方法依赖配对多模态数据，限制了其应用范围和数据效率，难以有效利用大量非配对数据。
UML通过参数共享，交替处理不同模态的非配对数据，学习跨模态结构，提升单模态表示。
实验表明，UML利用非配对文本、音频、图像数据，显著提升了图像和音频任务的性能。

📝 摘要（中文）

传统的多模态学习器专注于为视觉问答等任务寻找统一的表示，但严重依赖于配对数据集。然而，一个被忽视但可能强大的问题是：能否利用辅助的非配对多模态数据来直接增强目标模态中的表示学习？我们提出了UML：非配对多模态学习器，这是一种模态无关的训练范式，其中单个模型交替处理来自不同模态的输入，同时在它们之间共享参数。这种设计利用了不同模态是共享底层现实的投影这一假设，允许模型从跨模态结构中受益，而无需显式配对。理论上，在线性数据生成假设下，我们证明了非配对辅助数据可以产生比单模态训练更具信息量的数据生成过程表示。在实验上，我们表明使用来自辅助模态（如文本、音频或图像）的非配对数据可以持续提高各种单模态目标（如图像和音频）的下游性能。

🔬 方法详解

问题定义：论文旨在解决如何利用大量存在的非配对多模态数据来提升单模态模型的表示学习能力的问题。现有方法主要依赖于配对的多模态数据，这限制了它们的应用范围，并且无法有效利用互联网上大量的非配对数据。现有方法的痛点在于数据获取成本高昂，且模型泛化能力受限。

核心思路：论文的核心思路是假设不同模态的数据是同一个底层现实的不同投影。因此，即使数据是非配对的，模型也可以通过学习不同模态之间的共享结构来提升对单模态数据的理解。通过在不同模态之间共享参数，模型可以从其他模态的知识中受益，从而提升自身的表示学习能力。

技术框架：UML (Unpaired Multimodal Learner) 的整体框架包含一个共享的编码器和一个针对不同模态的特定解码器。模型交替地接收来自不同模态的输入，并使用共享编码器提取特征表示。然后，使用特定模态的解码器将特征表示重构为原始输入。通过这种方式，模型可以学习到不同模态之间的共享结构，并提升对单模态数据的理解。

关键创新：论文最重要的技术创新点在于提出了一个模态无关的训练范式，该范式允许模型利用非配对的多模态数据来提升单模态模型的表示学习能力。与现有方法相比，UML 不需要配对的数据，因此可以利用更多的数据来训练模型。此外，UML 通过参数共享来学习不同模态之间的共享结构，从而提升模型的泛化能力。

关键设计：UML 的关键设计包括：1) 使用共享编码器来提取不同模态的特征表示；2) 使用特定模态的解码器来重构原始输入；3) 使用交替训练的方式来训练模型，即每次只使用一个模态的数据来更新模型参数；4) 使用重构损失函数来衡量模型重构原始输入的能力。具体的网络结构和参数设置取决于具体的任务和数据集。

📊 实验亮点

实验结果表明，UML在图像和音频任务上均取得了显著的性能提升。例如，在ImageNet图像分类任务上，使用非配对的文本数据作为辅助信息，UML的性能提升了多个百分点。在音频分类任务上，使用非配对的图像数据作为辅助信息，UML也取得了类似的性能提升。这些结果表明，UML可以有效地利用非配对的多模态数据来提升单模态模型的性能。

🎯 应用场景

该研究成果可广泛应用于计算机视觉、语音识别、自然语言处理等领域。例如，可以利用非配对的图像和文本数据来提升图像分类或文本分类模型的性能。在机器人领域，可以利用非配对的视觉和触觉数据来提升机器人的感知能力。此外，该方法还可以应用于医疗影像分析、自动驾驶等领域，具有重要的实际价值和广阔的应用前景。

📄 摘要（原文）

Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册