Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

📄 arXiv: 2603.02760v1 📥 PDF

作者: Linhao Zhong, Linyu Wu, Wen Wang, Yuling Xi, Chenchen Jing, Jiaheng Zhang, Hao Chen, Chunhua Shen

分类: cs.CL, cs.AI

发布日期: 2026-03-03


💡 一句话要点

提出DiSE,通过序列再生实现扩散语言模型的高效自评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 自评估 序列再生 置信度量化 不确定性量化

📋 核心要点

  1. 扩散语言模型质量评估困难,因为其生成方式的非序列性和双向掩码特性。
  2. DiSE通过计算再生生成序列中token的概率来量化模型置信度,实现自评估。
  3. 实验表明DiSE与语义连贯性和答案准确性正相关,验证了其有效性。

📝 摘要(中文)

扩散大型语言模型(dLLMs)因其增强多样性、可控性和并行性的能力而备受关注。然而,其非序列化、双向掩码生成使得质量评估变得困难,突显了对有效自评估的需求。本文提出DiSE,一种简单而有效的dLLM自评估置信度量化方法。DiSE通过计算在给定完整上下文的情况下,再生整个生成序列中token的概率来量化置信度。该方法通过利用token再生概率,实现更高效、更可靠的质量评估,从而促进似然估计和鲁棒的不确定性量化。基于DiSE,我们进一步引入了一种灵活长度生成框架,该框架基于模型对其自身输出的自评估来适应性地控制序列长度。我们从dLLM泛化的角度分析和验证了DiSE的可行性,并通过实验证明DiSE与语义连贯性和答案准确性呈正相关。在似然评估、不确定性量化和灵活长度生成方面的大量实验进一步证实了所提出的DiSE的有效性。

🔬 方法详解

问题定义:扩散语言模型(dLLMs)在生成文本时具有非序列和双向掩码的特性,这使得评估生成文本的质量变得非常困难。传统的评估方法,例如困惑度(perplexity),在这种情况下可能无法准确反映模型的真实性能。因此,如何有效地对dLLMs生成的文本进行自评估,成为了一个亟待解决的问题。

核心思路:DiSE的核心思路是利用模型自身的能力来评估其生成文本的质量。具体来说,它通过计算模型在给定完整上下文的情况下,重新生成整个生成序列中每个token的概率,来量化模型对生成文本的置信度。如果模型能够以较高的概率再生其自身生成的序列,则表明模型对该序列的质量有较高的信心。

技术框架:DiSE的整体框架非常简洁。首先,使用dLLM生成一段文本序列。然后,将该序列作为输入,再次输入到dLLM中,计算模型再生该序列中每个token的概率。最后,将这些概率值进行聚合,得到一个置信度评分,用于评估生成文本的质量。基于这个置信度评分,可以进一步构建灵活长度生成框架,自适应地控制生成序列的长度。

关键创新:DiSE的关键创新在于其利用序列再生概率进行自评估的思想。与传统的评估方法不同,DiSE不需要外部的参考文本或人工标注,而是完全依赖于模型自身的能力。这种自评估方法可以更直接地反映模型对生成文本的理解和置信度。

关键设计:DiSE的关键设计在于如何聚合每个token的再生概率。论文中可能采用了多种聚合方式,例如计算所有token再生概率的平均值、最小值或加权平均值。具体选择哪种聚合方式可能需要根据具体的任务和数据集进行调整。此外,灵活长度生成框架的设计也至关重要,需要合理设置阈值,以控制生成序列的长度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiSE与生成文本的语义连贯性和答案准确性呈正相关,验证了其有效性。在似然评估、不确定性量化和灵活长度生成等任务上,DiSE均取得了显著的性能提升。具体的数据指标(例如,在特定数据集上的准确率提升百分比)未知,但整体趋势表明DiSE是一种有前景的自评估方法。

🎯 应用场景

DiSE可应用于各种需要高质量文本生成的场景,例如机器翻译、文本摘要、对话生成等。通过自评估机制,模型可以更好地控制生成文本的质量,避免生成不连贯或不准确的内容。此外,DiSE还可以用于模型调试和优化,帮助研究人员更好地理解dLLMs的工作原理。

📄 摘要(原文)

Diffusion large language models (dLLMs) have recently attracted significant attention for their ability to enhance diversity, controllability, and parallelism. However, their non-sequential, bidirectionally masked generation makes quality assessment difficult, underscoring the need for effective self-evaluation. In this work, we propose DiSE, a simple yet effective self-evaluation confidence quantification method for dLLMs. DiSE quantifies confidence by computing the probability of regenerating the tokens in the entire generated sequence, given the full context. This method enables more efficient and reliable quality assessment by leveraging token regeneration probabilities, facilitating both likelihood estimation and robust uncertainty quantification. Building upon DiSE, we further introduce a flexible-length generation framework, which adaptively controls the sequence length based on the model's self-assessment of its own output. We analyze and validate the feasibility of DiSE from the perspective of dLLM generalization, and empirically demonstrate that DiSE is positively correlated with both semantic coherence and answer accuracy. Extensive experiments on likelihood evaluation, uncertainty quantification, and flexible-length generation further confirm the effectiveness of the proposed DiSE.