Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models
作者: Liancheng Fang, Aiwei Liu, Henry Peng Zou, Yankai Chen, Enze Ma, Leyi Pan, Chunyu Miao, Wei-Chieh Huang, Xue Liu, Philip S. Yu
分类: cs.CL
发布日期: 2026-04-01
💡 一句话要点
针对扩散语言模型质量-探索困境,提出基于Metropolis-Hastings采样的解码方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 解码策略 质量-探索困境 Metropolis-Hastings采样 推理任务
📋 核心要点
- 扩散语言模型在解码顺序上具有灵活性,但随机解码损害生成质量,而低置信度重掩码虽然提升单样本质量,却限制了探索。
- 论文提出一种基于独立Metropolis-Hastings采样的解码方法,旨在显式地平衡生成质量和探索能力,从而克服质量-探索困境。
- 实验结果表明,该方法在多个推理基准测试中,相较于随机重掩码和低置信度重掩码,实现了更好的探索-质量权衡。
📝 摘要(中文)
扩散大型语言模型(dLLMs)在理论上允许以任意顺序进行token解码,这种灵活性使其能够比自回归(AR) LLMs更丰富地探索推理路径。然而,在实践中,随机顺序解码通常会损害生成质量。为了缓解这个问题,低置信度重掩码通过优先考虑置信度高的token来提高单样本质量(例如,Pass@$1$),但同时也抑制了探索,限制了多样本增益(例如,Pass@$k$),从而造成了根本的质量-探索困境。本文对这一困境提供了一个统一的解释。我们证明了低置信度重掩码改进了质量的短视代理,同时可证明地约束了诱导序列分布的熵。为了克服这一限制,我们描述了显式平衡质量和探索的最优分布,并开发了一个简单的独立Metropolis-Hastings采样器,在解码过程中近似地以该分布为目标。在包括MATH500、AIME24/25、HumanEval和MBPP在内的一系列推理基准上的实验表明,我们的方法比随机和低置信度重掩码在探索-质量权衡方面表现更好。
🔬 方法详解
问题定义:扩散语言模型(dLLMs)虽然具有任意顺序解码的潜力,但现有方法如随机解码和低置信度重掩码在实际应用中存在质量-探索困境。随机解码探索性强但质量差,低置信度重掩码质量高但探索不足。现有方法无法有效平衡生成质量和探索能力,导致多样本推理性能受限。
核心思路:论文的核心思路是找到一个最优的序列分布,该分布能够显式地平衡生成质量和探索能力。通过理论分析,论文证明了低置信度重掩码虽然能提高局部质量,但会限制序列分布的熵,从而抑制探索。因此,需要设计一种解码策略,既能保证生成质量,又能维持足够的探索性。
技术框架:论文提出了一种基于独立Metropolis-Hastings (IMH) 采样的解码框架。该框架包含以下主要步骤:1) 使用扩散模型生成候选token序列;2) 定义一个接受概率,该概率基于质量和探索的平衡,用于决定是否接受新的token序列;3) 通过迭代采样和接受/拒绝过程,逐步逼近最优的序列分布。
关键创新:论文最重要的技术创新在于提出了一个显式平衡质量和探索的解码策略。与现有方法不同,该方法不是简单地依赖于随机性或置信度来决定解码顺序,而是通过Metropolis-Hastings采样,以一个精心设计的接受概率来引导解码过程,从而在质量和探索之间取得更好的平衡。
关键设计:关键设计包括:1) 定义一个合适的质量函数,用于衡量生成序列的质量;2) 定义一个探索函数,用于衡量序列分布的熵;3) 设计一个接受概率,该概率是质量函数和探索函数的加权组合,权重参数控制质量和探索之间的平衡。具体参数设置和损失函数细节在论文中进行了详细描述(具体数值未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的基于Metropolis-Hastings采样的解码方法在MATH500、AIME24/25、HumanEval和MBPP等多个推理基准测试中,相较于随机重掩码和低置信度重掩码,实现了更好的探索-质量权衡。具体性能提升数据在论文中给出(具体数值未知),证明了该方法在复杂推理任务中的有效性。
🎯 应用场景
该研究成果可应用于需要高质量和高探索性的自然语言生成任务,例如复杂推理、代码生成、创意写作等。通过平衡质量和探索,可以提高生成结果的准确性、多样性和创造性,从而提升AI在这些领域的应用价值。未来,该方法有望扩展到其他生成模型和任务中。
📄 摘要(原文)
Diffusion large language models (dLLMs) theoretically permit token decoding in arbitrary order, a flexibility that could enable richer exploration of reasoning paths than autoregressive (AR) LLMs. In practice, however, random-order decoding often hurts generation quality. To mitigate this, low-confidence remasking improves single-sample quality (e.g., Pass@$1$) by prioritizing confident tokens, but it also suppresses exploration and limits multi-sample gains (e.g., Pass@$k$), creating a fundamental quality--exploration dilemma. In this paper, we provide a unified explanation of this dilemma. We show that low-confidence remasking improves a myopic proxy for quality while provably constraining the entropy of the induced sequence distribution. To overcome this limitation, we characterize the optimal distribution that explicitly balances quality and exploration, and develop a simple Independent Metropolis--Hastings sampler that approximately targets this distribution during decoding. Experiments across a range of reasoning benchmarks including MATH500, AIME24/25, HumanEval, and MBPP show that our approach yields better exploration-quality tradeoff than both random and low-confidence remasking.