Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion

📄 arXiv: 2601.04056v1 📥 PDF

作者: Yuanfeng Xu, Yuhao Chen, Liang Lin, Guangrun Wang

分类: cs.CL

发布日期: 2026-01-07

备注: 10 pages, 5 figures


💡 一句话要点

提出CoM-DAD,通过耦合流形离散吸收扩散实现统一多模态生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 扩散模型 掩码语言模型 离散扩散 连续扩散 语义流形 跨模态对齐

📋 核心要点

  1. 现有生成模型在离散数据和连续数据上采用不同方法,缺乏统一性,且多模态掩码生成面临对齐和训练难题。
  2. CoM-DAD将多模态生成分解为语义流形扩散和token吸收扩散两个过程,并引入混合模态传输策略。
  3. 实验表明,CoM-DAD比标准掩码建模更稳定,为统一文本-图像生成提供了一种新的可扩展方法。

📝 摘要(中文)

生成建模领域中,自回归方法常用于离散数据(文本)生成,而扩散方法则用于连续数据(图像)生成,这阻碍了真正统一的多模态系统的发展。掩码语言模型(MLM)虽然提供高效的双向上下文,但通常缺乏自回归模型的生成保真度和扩散模型的语义连续性。此外,将掩码生成扩展到多模态环境会带来严重的对齐挑战和训练不稳定。本文提出了一种新的概率框架——耦合流形离散吸收扩散(CoM-DAD),它将多模态生成重构为分层双重过程。CoM-DAD将高层语义规划与低层token合成解耦。首先,通过连续潜在扩散过程对语义流形进行建模;其次,将token生成视为离散吸收扩散过程,并由可变速率噪声调度进行调节,且以不断演变的语义先验为条件。至关重要的是,我们引入了一种随机混合模态传输策略,该策略无需繁重的对比双编码器即可对齐不同的模态。我们的方法展示了优于标准掩码建模的稳定性,为可扩展的统一文本-图像生成建立了一种新的范例。

🔬 方法详解

问题定义:现有生成模型通常针对离散数据(如文本)采用自回归方法,而针对连续数据(如图像)采用扩散模型。这种分离阻碍了统一多模态系统的发展。掩码语言模型(MLM)虽然高效,但在生成质量和语义连续性上存在不足。将MLM扩展到多模态场景时,模态间的对齐和训练稳定性成为关键痛点。

核心思路:CoM-DAD的核心思路是将多模态生成分解为两个层次的过程:高层语义规划和低层token合成。通过连续扩散过程建模语义流形,捕捉不同模态之间的语义关系。然后,利用离散吸收扩散过程生成token,并以语义流形提供的先验信息为条件。这种解耦的设计旨在提高生成质量和训练稳定性。

技术框架:CoM-DAD包含两个主要模块:连续潜在扩散模块和离散吸收扩散模块。连续潜在扩散模块负责学习语义流形,将不同模态的数据映射到共享的潜在空间。离散吸收扩散模块则基于潜在空间中的语义信息,生成离散的token序列。此外,还引入了随机混合模态传输策略,用于对齐不同模态的数据。整体流程是先通过连续扩散过程获得语义先验,再利用该先验指导离散token的生成。

关键创新:CoM-DAD的关键创新在于将连续扩散和离散吸收扩散相结合,并引入了随机混合模态传输策略。传统的掩码建模方法难以同时保证生成质量和语义连续性,而CoM-DAD通过解耦语义规划和token生成,有效解决了这个问题。随机混合模态传输策略避免了使用复杂的对比学习方法,简化了多模态对齐的过程。

关键设计:CoM-DAD使用可变速率噪声调度来控制离散吸收扩散过程,允许模型根据语义先验动态调整噪声水平。随机混合模态传输策略通过随机混合不同模态的数据,增强模型的跨模态理解能力。具体的网络结构和损失函数细节在论文中未明确给出,属于未知信息。

📊 实验亮点

论文提出的CoM-DAD方法在多模态生成任务上表现出优越的稳定性,克服了传统掩码建模方法在多模态场景下的训练难题。虽然论文中没有给出具体的性能数据和对比基线,但强调了其在稳定性方面的提升,为统一多模态生成提供了一种新的范式。

🎯 应用场景

CoM-DAD在多模态内容生成领域具有广泛的应用前景,例如文本到图像的生成、图像到文本的描述、以及跨模态的对话系统。该方法能够生成高质量、语义一致的多模态内容,有望提升人机交互的自然性和效率,并为创意内容生成提供新的工具。

📄 摘要(原文)

The bifurcation of generative modeling into autoregressive approaches for discrete data (text) and diffusion approaches for continuous data (images) hinders the development of truly unified multimodal systems. While Masked Language Models (MLMs) offer efficient bidirectional context, they traditionally lack the generative fidelity of autoregressive models and the semantic continuity of diffusion models. Furthermore, extending masked generation to multimodal settings introduces severe alignment challenges and training instability. In this work, we propose \textbf{CoM-DAD} (\textbf{Co}upled \textbf{M}anifold \textbf{D}iscrete \textbf{A}bsorbing \textbf{D}iffusion), a novel probabilistic framework that reformulates multimodal generation as a hierarchical dual-process. CoM-DAD decouples high-level semantic planning from low-level token synthesis. First, we model the semantic manifold via a continuous latent diffusion process; second, we treat token generation as a discrete absorbing diffusion process, regulated by a \textbf{Variable-Rate Noise Schedule}, conditioned on these evolving semantic priors. Crucially, we introduce a \textbf{Stochastic Mixed-Modal Transport} strategy that aligns disparate modalities without requiring heavy contrastive dual-encoders. Our method demonstrates superior stability over standard masked modeling, establishing a new paradigm for scalable, unified text-image generation.