DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking
作者: Gilad Turok, Chris De Sa, Volodymyr Kuleshov
分类: cs.LG
发布日期: 2026-03-02
备注: 22 pages, 5 figures 8 tables
💡 一句话要点
提出DUEL框架以解决MDM困境并实现精确似然计算
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 掩码扩散模型 困惑度评估 似然计算 自然语言处理 文本生成 机器学习 深度学习
📋 核心要点
- 现有的掩码扩散模型在困惑度评估上存在不足,无法准确反映模型的生成能力。
- 本文提出DUEL框架,通过确定性位置选择实现精确的似然计算,解决了MDMs的困惑度评估问题。
- 实验结果显示,MDMs的性能显著提升,困惑度差距在多个基准上大幅缩小,表明其潜力尚未被充分挖掘。
📝 摘要(中文)
掩码扩散模型(MDMs)通过迭代选择位置进行解掩码并预测相应的标记。然而,现有的MDMs在困惑度评估上存在不足:ELBO仅是训练分布下的松散界限,而生成困惑度依赖于有偏的外部模型并忽略多样性。为了解决这一问题,本文提出了DUEL框架,形式化了确定性位置选择,统一了主要的MDM采样策略。我们证明DUEL能够通过简单算法进行精确的似然计算,并在测试时使用相同的位置选择,从而首次为MDMs提供了适当的困惑度。通过这一方法,MDMs的表现显著优于之前的评估,困惑度差距在特定数据集上缩小了32%,在零样本基准上缩小了82%。
🔬 方法详解
问题定义:本文旨在解决掩码扩散模型在困惑度评估中的不足,现有方法如ELBO无法提供准确的似然计算,导致对模型性能的评估不够可靠。
核心思路:DUEL框架通过形式化确定性位置选择,统一了多种MDM采样策略,确保在测试时能够进行精确的似然计算,从而提供适当的困惑度评估。
技术框架:DUEL框架包括位置选择、解掩码和似然计算三个主要模块。首先,通过确定性策略选择解掩码位置,然后在这些位置上进行标记预测,最后计算精确的似然值。
关键创新:DUEL的核心创新在于其能够实现精确的似然计算,这在之前的MDM研究中是未曾实现的。这一创新使得MDMs的困惑度评估更加准确,进而提升了模型的整体性能。
关键设计:DUEL框架的设计中,关键参数包括位置选择策略和解掩码算法,损失函数采用了适应性调整的形式,以确保模型在训练和测试阶段的一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDMs在特定数据集上的困惑度差距缩小了32%,在零样本基准上缩小了82%。此外,通过对位置顺序的oracle搜索,MDMs在AG News数据集上实现了36.47的困惑度,相较于传统自回归模型的52.11,显示出MDMs的潜力尚未被充分挖掘。
🎯 应用场景
DUEL框架的提出为掩码扩散模型在自然语言处理、文本生成等领域的应用提供了新的思路。通过精确的困惑度评估,研究者可以更好地理解和优化MDMs的性能,推动相关技术在实际应用中的落地和发展。
📄 摘要(原文)
Masked diffusion models (MDMs) generate text by iteratively selecting positions to unmask and then predicting tokens at those positions. Yet MDMs lack proper perplexity evaluation: the ELBO is a loose bound on likelihood under the training distribution, not the test-time distribution, while generative perplexity requires a biased external model and ignores diversity. To address this, we introduce the \textsc{DUEL} framework, which formalizes \emph{deterministic} position selection, unifying leading MDM sampling strategies. We prove \textbf{\textsc{DUEL} admits \emph{exact} likelihood computation} via a simple algorithm, evaluated under the same position selection used at test time. This \textbf{gives MDMs proper perplexity for the first time} -- the natural analogue of autoregressive perplexity. With proper perplexity in hand, we revisit key questions about MDMs. \textbf{MDMs are substantially better than previously thought}: the MDM-autoregressive perplexity gap shrinks by up to 32\% on in-domain data and 82\% on zero-shot benchmarks. \textsc{DUEL} enables the first principled comparison of fast, parallel samplers across compute budgets -- an analysis impossible with the ELBO and unreliable with generative perplexity -- identifying probability margin \citep{kim2025train} as a strong default. Finally, oracle search over position orderings reveals MDMs can far surpass autoregressive models -- achieving 36.47 vs.\ 52.11 perplexity on AG News -- demonstrating the ceiling of MDM performance has not yet been reached.