NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

作者: Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua

分类: cs.CL, cs.AI, cs.CV, cs.MM

发布日期: 2025-10-15 (更新: 2025-10-16)

💡 一句话要点

NExT-OMNI：基于离散流匹配的任意到任意全模态统一建模

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 全模态模型 离散流匹配 跨模态检索 多轮交互 统一建模 生成模型

📋 核心要点

现有模型受限于自回归架构，难以平衡理解和生成能力，混合和解耦策略设计冗余，限制了其在跨模态检索等更广泛场景中的应用。
NExT-OMNI利用离散流范式，通过度量诱导的概率路径和动力学最优速度，实现任意模态到任意模态的统一建模，提升响应效率。
NExT-OMNI在多模态生成和理解任务上表现出色，并在多轮多模态交互和跨模态检索方面超越了以往的统一模型。

📝 摘要（中文）

本文提出了NExT-OMNI，一个开源的全模态基础模型，旨在通过离散流范式实现统一建模，从而支持任意模态到任意模态的理解和生成，并提高响应效率。NExT-OMNI利用度量诱导的概率路径和动力学最优速度，通过简洁的统一表示而非任务解耦设计，实现更广泛的应用场景，例如跨模态检索。该模型在大规模交错的文本、图像、视频和音频数据上进行训练，在多模态生成和理解基准测试中表现出竞争力的性能，并在多轮多模态交互和跨模态检索方面优于以往的统一模型，突显了其作为下一代多模态基础模型的架构优势。为了促进进一步的研究，作者发布了训练细节、数据协议以及代码和模型检查点。

🔬 方法详解

问题定义：现有的大部分多模态模型依赖于自回归架构，这限制了它们在理解和生成能力上的平衡。此外，虽然一些混合和解耦策略被用于统一框架中，但它们的设计较为冗余，无法很好地应用于更广泛的场景，例如跨模态检索。因此，需要一个更加统一和高效的模型，能够支持任意模态之间的转换和交互。

核心思路：NExT-OMNI的核心思路是利用离散流匹配（Discrete Flow Matching）范式，将不同模态的数据映射到统一的潜在空间中。通过学习度量诱导的概率路径和动力学最优速度，模型能够高效地在不同模态之间进行转换，从而实现任意模态到任意模态的理解和生成。这种方法避免了传统自回归模型的局限性，并提供了一种更加简洁和统一的建模方式。

技术框架：NExT-OMNI的整体架构基于离散流匹配。首先，不同模态的数据通过各自的编码器映射到潜在空间。然后，模型学习一个流场，该流场定义了从一个模态到另一个模态的概率路径。在生成过程中，模型沿着这个流场进行采样，从而生成目标模态的数据。该框架包含模态编码器、流场学习模块和模态解码器三个主要模块。

关键创新：NExT-OMNI的关键创新在于使用离散流匹配范式进行多模态统一建模。与传统的自回归模型相比，离散流匹配能够更有效地学习不同模态之间的关系，并支持任意模态之间的转换。此外，NExT-OMNI通过学习度量诱导的概率路径和动力学最优速度，进一步提高了生成效率和质量。

关键设计：NExT-OMNI的关键设计包括：1) 使用Transformer作为模态编码器和解码器，以捕捉不同模态数据的复杂特征；2) 设计了一种新的损失函数，用于学习流场，该损失函数同时考虑了生成质量和效率；3) 采用了一种自适应采样策略，以提高生成的多样性。

📊 实验亮点

NExT-OMNI在多模态生成和理解基准测试中表现出竞争力的性能。更重要的是，在多轮多模态交互和跨模态检索方面，NExT-OMNI显著优于以往的统一模型，证明了其架构的优越性。具体性能数据在论文中给出，表明NExT-OMNI在多个任务上都取得了SOTA或接近SOTA的结果。

🎯 应用场景

NExT-OMNI具有广泛的应用前景，包括多模态对话系统、跨模态内容生成、智能助手、教育娱乐等领域。它可以用于生成图像描述、视频摘要、音频转录等，还可以用于实现更自然和智能的人机交互。未来，NExT-OMNI有望成为通用人工智能系统的核心组成部分。

📄 摘要（原文）

Next-generation multimodal foundation models capable of any-to-any cross-modal generation and multi-turn interaction will serve as core components of artificial general intelligence systems, playing a pivotal role in human-machine interaction. However, most existing multimodal models remain constrained by autoregressive architectures, whose inherent limitations prevent a balanced integration of understanding and generation capabilities. Although hybrid and decoupling strategies have been explored to address these tasks within unified frameworks separately, their redundant, non-integrated designs limit their applicability to broader scenarios, such as cross-modal retrieval. In this work, we introduce NExT-OMNI, an open-source omnimodal foundation model that achieves unified modeling through discrete flow paradigms. By leveraging metric-induced probability paths and kinetic optimal velocities, NExT-OMNI natively supports any-to-any understanding and generation with enhanced response efficiency, while enabling broader application scenarios through concise unified representations rather than task-decoupled designs. Trained on large-scale interleaved text, image, video, and audio data, NExT-OMNI delivers competitive performance on multimodal generation and understanding benchmarks, while outperforming prior unified models in multi-turn multimodal interaction and cross-modal retrieval, highlighting its architectural advantages as a next-generation multimodal foundation model. To advance further research, we release training details, data protocols, and open-source both the code and model checkpoints.

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册