Beyond Language Modeling: An Exploration of Multimodal Pretraining

📄 arXiv: 2603.03276v1 📥 PDF

作者: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie

分类: cs.CV

发布日期: 2026-03-03

备注: Project website at https://beyond-llms.github.io/


💡 一句话要点

探索多模态预训练:超越语言建模,实现视觉与语言的协同

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态预训练 视觉语言模型 表征自编码器 混合专家模型 扩散模型 世界模型 Transfusion模型

📋 核心要点

  1. 现有方法在多模态预训练中,缺乏对视觉和语言数据协同作用的深入理解,以及对模型扩展性的有效策略。
  2. 论文提出基于Transfusion框架的多模态预训练方法,利用RAE进行视觉表征,并采用MoE模型实现高效扩展。
  3. 实验表明,该方法能够有效提升视觉理解和生成能力,并揭示了视觉和语言模态在数据需求上的不对称性。

📝 摘要(中文)

本文旨在探索超越语言建模的多模态预训练方法,着重研究原生多模态模型的设计空间。通过可控的、从零开始的预训练实验,分离影响多模态预训练的关键因素,避免语言预训练的干扰。采用Transfusion框架,使用下一token预测进行语言建模,扩散模型进行视觉建模,并在包含文本、视频、图像-文本对以及动作条件视频等多样化数据上进行训练。实验结果表明:表征自编码器(RAE)通过在视觉理解和生成方面的卓越表现,提供了最佳的统一视觉表征;视觉和语言数据具有互补性,能够协同提升下游任务性能;统一的多模态预训练自然地引导世界模型的形成,能力从通用训练中涌现;混合专家(MoE)模型能够高效地进行多模态扩展,并自然地诱导模态专业化。通过IsoFLOP分析,计算了两种模态的缩放定律,发现视觉比语言更需要数据。MoE架构通过提供语言所需的高模型容量,同时适应视觉的数据密集型特性,协调了这种缩放不对称性,为真正统一的多模态模型铺平了道路。

🔬 方法详解

问题定义:现有的大部分预训练模型主要集中在语言建模上,忽略了视觉信息的重要性。虽然多模态预训练越来越受到关注,但是原生多模态模型的设计空间仍然不明确。现有的方法往往受到语言预训练的干扰,难以有效探索视觉和语言之间的协同作用,并且缺乏对模型扩展性的有效策略。

核心思路:本文的核心思路是通过从零开始的预训练实验,分离影响多模态预训练的关键因素,避免语言预训练的干扰。利用Transfusion框架,统一处理视觉和语言数据,并采用混合专家(MoE)模型实现高效扩展。通过这种方式,探索视觉和语言之间的协同作用,并揭示不同模态的数据需求。

技术框架:整体框架基于Transfusion模型,包含语言和视觉两个分支。语言分支使用下一token预测进行建模,视觉分支使用扩散模型进行建模。模型在包含文本、视频、图像-文本对以及动作条件视频等多样化数据上进行训练。MoE模型被用于扩展模型容量,并实现模态专业化。

关键创新:本文的关键创新在于:1) 提出使用表征自编码器(RAE)作为统一的视觉表征,能够同时提升视觉理解和生成能力;2) 揭示了视觉和语言数据之间的互补性,以及统一多模态预训练对世界模型形成的促进作用;3) 提出了使用MoE模型来协调视觉和语言模态在数据需求上的不对称性。

关键设计:视觉分支使用扩散模型,通过学习数据分布的逆过程进行生成。RAE被用于学习视觉数据的紧凑表征。MoE模型包含多个专家网络,每个专家网络负责处理特定模态的数据。损失函数包括语言建模损失和视觉建模损失。通过IsoFLOP分析,确定不同模态的数据需求,并调整训练策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAE能够有效提升视觉理解和生成能力。通过统一的多模态预训练,模型能够自然地形成世界模型,并涌现出各种能力。MoE模型能够高效地进行多模态扩展,并协调视觉和语言模态在数据需求上的不对称性。IsoFLOP分析揭示了视觉比语言更需要数据。

🎯 应用场景

该研究成果可应用于各种需要理解和生成多模态内容的场景,例如智能助手、自动驾驶、机器人导航、视频理解、图像生成等。通过提升模型对视觉和语言信息的理解能力,可以实现更智能、更自然的人机交互,并为各种下游任务提供更强大的支持。

📄 摘要(原文)

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.