Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
作者: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen
分类: cs.CL, cs.AI
发布日期: 2025-08-12 (更新: 2025-10-06)
备注: Project webpage: https://aim-uofa.github.io/dLLM-MidTruth
💡 一句话要点
提出时间一致性方法以解决扩散语言模型的预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 时间一致性 去噪生成 语义稳定性 深度学习
📋 核心要点
- 现有的扩散语言模型在解码过程中忽视了中间步骤的预测,导致潜在的正确答案被覆盖。
- 本文提出了时间自一致性投票和时间一致性强化两种方法,以充分利用时间动态特性。
- 实验结果显示,使用负TSE奖励在Countdown数据集上平均提升24.7%,并在多个基准上取得显著改进。
📝 摘要(中文)
扩散大型语言模型(dLLMs)通过迭代去噪生成文本,但现有解码策略忽视了中间预测的丰富信息,导致正确答案在后续步骤中被覆盖。本文揭示了一个关键现象——时间振荡,提出了两种互补的方法来利用时间一致性:1)时间自一致性投票,一种无训练的测试时解码策略,通过聚合去噪步骤中的预测来选择最一致的输出;2)后训练方法时间一致性强化,利用时间语义熵(TSE)作为奖励信号,鼓励稳定生成。实验证明,该方法在多个基准上有效,使用负TSE奖励单独观察到Countdown数据集上平均提升24.7%。
🔬 方法详解
问题定义:本文旨在解决扩散大型语言模型在生成过程中忽视中间预测的问题,导致正确答案在后续去噪步骤中被覆盖。现有方法未能充分利用时间动态特性,影响了生成文本的质量。
核心思路:论文提出通过时间一致性的方法来解决这一问题,核心在于聚合多个去噪步骤的预测,以选择最一致的输出,从而提高生成的稳定性和准确性。
技术框架:整体架构包括两个主要模块:时间自一致性投票和时间一致性强化。前者在测试阶段聚合预测,后者在训练后利用时间语义熵作为奖励信号。
关键创新:最重要的技术创新在于引入时间语义熵(TSE)作为奖励信号,鼓励模型在生成过程中保持语义稳定性,这与传统方法的单一输出选择形成鲜明对比。
关键设计:在时间自一致性投票中,采用无训练的聚合策略;在时间一致性强化中,设计了基于TSE的奖励机制,以促进模型在生成过程中的稳定性。
📊 实验亮点
实验结果表明,使用负TSE奖励单独在Countdown数据集上实现了24.7%的平均提升。结合准确性奖励,在GSM8K、MATH500、SVAMP和Countdown数据集上分别取得了2.0%、4.3%、6.6%和25.3%的绝对增益,显示出方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。通过提高生成文本的稳定性和准确性,能够在教育、客服和内容创作等多个实际场景中发挥重要作用,未来可能推动更智能的语言模型发展。
📄 摘要(原文)
Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.