Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

📄 arXiv: 2603.06577v1 📥 PDF

作者: Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

分类: cs.CV

发布日期: 2026-03-06

备注: Project page: https://omni-diffusion.github.io


💡 一句话要点

Omni-Diffusion:基于掩码离散扩散模型的统一多模态理解与生成框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 扩散模型 掩码建模 多模态生成 跨模态理解

📋 核心要点

  1. 现有MLLM主要采用自回归架构,缺乏在架构设计上探索有效替代方案。
  2. Omni-Diffusion基于掩码离散扩散模型,统一处理文本、语音和图像,实现多模态理解与生成。
  3. 实验结果表明,Omni-Diffusion在多模态任务上表现优异,证明了扩散模型在多模态领域的潜力。

📝 摘要(中文)

本文提出Omni-Diffusion,一种完全基于掩码离散扩散模型的任意模态到任意模态的多模态语言模型,统一了文本、语音和图像的理解与生成。Omni-Diffusion采用统一的掩码离散扩散模型,直接捕获离散多模态token的联合分布。这种方法不仅支持双模态任务,还支持涉及多种模态的更复杂场景。在各种基准测试中,该方法优于或与现有的处理两种或多种模态的多模态系统性能相当,突出了扩散模型在推动下一代多模态基础模型方面的巨大潜力。

🔬 方法详解

问题定义:现有的大部分多模态大语言模型(MLLM)依赖于传统的自回归架构,这种架构在处理多模态数据时可能存在效率和表达能力上的瓶颈。此外,如何有效地建模不同模态之间的复杂关系,并实现跨模态的统一理解和生成,仍然是一个挑战。

核心思路:Omni-Diffusion的核心思路是利用掩码离散扩散模型来直接学习多模态数据的联合分布。通过将不同模态的数据表示为离散的token,并使用扩散过程逐步添加噪声,然后学习如何从噪声中恢复原始数据,从而实现对多模态数据的理解和生成。这种方法避免了自回归模型的顺序依赖性,可以更灵活地处理各种模态的组合。

技术框架:Omni-Diffusion的整体框架包括以下几个主要步骤:1) 将不同模态的数据(文本、语音、图像)转换为离散的token表示。2) 使用掩码策略随机掩盖一部分token。3) 通过扩散过程,逐步向未掩盖的token中添加噪声。4) 训练一个神经网络模型,该模型能够根据未掩盖的token和噪声,预测被掩盖的token。5) 在生成阶段,通过迭代地去噪过程,从随机噪声中生成新的多模态数据。

关键创新:Omni-Diffusion的关键创新在于它是第一个完全基于掩码离散扩散模型的多模态语言模型。与传统的自回归模型相比,扩散模型能够更好地捕捉多模态数据之间的复杂依赖关系,并且可以更灵活地处理各种模态的组合。此外,Omni-Diffusion采用统一的框架来处理不同模态的数据,避免了为每种模态单独设计模型的复杂性。

关键设计:Omni-Diffusion的关键设计包括:1) 使用统一的token词汇表来表示不同模态的数据。2) 采用掩码策略来提高模型的鲁棒性和泛化能力。3) 使用离散扩散过程来逐步添加和去除噪声。4) 设计一个高效的神经网络模型来预测被掩盖的token。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Omni-Diffusion在多个多模态基准测试中取得了优异的性能,与现有的多模态系统相比,在处理两种或多种模态的任务时,Omni-Diffusion表现出更强的竞争力,甚至超越了现有方法。这些结果表明,基于扩散模型的多模态建模方法具有巨大的潜力。

🎯 应用场景

Omni-Diffusion具有广泛的应用前景,例如多模态对话系统、跨模态信息检索、图像/语音描述生成、以及辅助内容创作等。该研究的实际价值在于提供了一种更有效、更灵活的多模态建模方法,有望推动多模态人工智能技术的发展,并为未来的多模态基础模型奠定基础。

📄 摘要(原文)

While recent multimodal large language models (MLLMs) have made impressive strides, they predominantly employ a conventional autoregressive architecture as their backbone, leaving significant room to explore effective and efficient alternatives in architectural design. Concurrently, recent studies have successfully applied discrete diffusion models to various domains, such as visual understanding and image generation, revealing their considerable potential as a promising backbone for multimodal systems. Drawing inspiration from these pioneering research, we introduce Omni-Diffusion, the first any-to-any multimodal language model built entirely on mask-based discrete diffusion models, which unifies understanding and generation across text, speech, and images. Omni-Diffusion employs a unified mask-based discrete diffusion model to directly capture the joint distribution over discrete multimodal tokens. This approach supports not only bimodal tasks but also more complex scenarios involving multiple modalities. On a diverse set of benchmarks, our method outperforms or performs on par with existing multimodal systems that process two or more modalities, highlighting the significant promise of diffusion models in powering the next generation of multimodal foundation models. Project webpage: https://omni-diffusion.github.io.