Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models

📄 arXiv: 2512.19004v1 📥 PDF

作者: Tongyuan Miao, Gary Huang, Kai Jun Han, Annie Jiang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-22


💡 一句话要点

提出上下文感知初始化方法,缩短扩散语言模型生成路径,加速推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 上下文感知初始化 生成路径缩短 推理加速 轻量级辅助模型

📋 核心要点

  1. 扩散语言模型推理速度慢,主要瓶颈在于需要大量的去噪迭代,从完全随机的初始状态生成文本。
  2. 论文提出上下文感知初始化方法,利用轻量级辅助模型提供prompt条件先验,使初始状态更接近目标分布,从而缩短生成路径。
  3. 实验表明,该方法能显著减少去噪迭代次数(约35%),但同时也发现naive的warm-starting可能降低最终精度,需要进一步研究。

📝 摘要(中文)

扩散语言模型(DLLMs)实现了完全并行的token解码,但由于需要多次去噪迭代才能将无信息的全掩码初始化转化为连贯的文本,因此在推理时通常不实用。现有的大多数加速方法都侧重于通过改进的求解器或采样策略来更有效地遍历此生成轨迹。本文提出了一种互补的视角:通过上下文感知的初始化,从更接近目标分布的位置开始,从而缩短轨迹本身。本文提出了一种无需训练的接口,该接口将来自轻量级辅助模型的prompt条件先验注入到扩散初始化中,并通过两种机制实例化它:离散token注入和表示级嵌入插值。由于注入的先验可能不完善,并且仅使用unmask解码可能会过早地提交,因此本文还引入了一种简单的基于置信度的重掩码机制,作为一种先验怀疑的形式。在GSM8K上的初步证据表明,上下文感知的初始化可以大大减少去噪迭代次数(在本文的设置中减少约35%的函数评估),同时也暴露了一个关键的开放挑战:相对于强大的扩散基线,naive的warm-starting会降低最终的准确性。本文使用这些发现来激发围绕校准、修正机制和表示对齐的研究议程,以实现可靠的warm-started扩散解码。

🔬 方法详解

问题定义:扩散语言模型(DLLMs)虽然具有并行解码的优势,但推理速度慢,主要原因是需要大量的去噪迭代。现有方法主要集中在优化采样策略或求解器,但忽略了初始状态对生成路径长度的影响。因此,如何减少生成路径的长度,提高推理效率是一个关键问题。

核心思路:论文的核心思路是通过上下文感知初始化,使扩散过程的起始点更接近目标分布。具体来说,利用一个轻量级的辅助模型(例如,一个小的语言模型)来预测在给定prompt下的token分布,并将这些先验信息注入到扩散模型的初始状态中。这样,扩散模型就可以从一个更有意义的状态开始去噪,从而减少所需的迭代次数。

技术框架:整体框架包含以下几个主要步骤:1) 使用prompt作为输入,通过轻量级辅助模型生成prompt条件先验。2) 将这些先验信息注入到扩散模型的初始状态中,具体方法包括离散token注入和表示级嵌入插值。3) 使用扩散模型进行去噪迭代,生成最终的文本。4) 引入基于置信度的重掩码机制,对初始注入的先验信息进行修正,避免过早的commit。

关键创新:论文的关键创新在于提出了上下文感知初始化这一概念,并将其应用于扩散语言模型。与现有方法不同,该方法不是优化扩散过程本身,而是通过改变初始状态来缩短生成路径。此外,论文还提出了两种具体的先验注入方法(离散token注入和表示级嵌入插值)以及一种基于置信度的重掩码机制,这些都为扩散语言模型的加速提供了新的思路。

关键设计:论文中,离散token注入方法直接将辅助模型预测的token替换扩散模型的初始掩码token。表示级嵌入插值方法则将辅助模型生成的嵌入向量与扩散模型的初始嵌入向量进行插值,从而将先验信息融入到表示空间中。基于置信度的重掩码机制则根据辅助模型预测的置信度,对低置信度的token进行重新掩码,从而避免过早的commit。具体的置信度阈值和插值系数等参数需要根据实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,上下文感知初始化方法可以在GSM8K数据集上显著减少去噪迭代次数,在特定设置下减少约35%的函数评估。然而,naive的warm-starting可能会降低最终精度,这表明需要进一步研究校准、修正机制和表示对齐等问题,以实现更可靠的warm-started扩散解码。

🎯 应用场景

该研究成果可应用于各种需要快速文本生成的场景,例如对话系统、机器翻译、文本摘要等。通过减少扩散语言模型的推理时间,可以提高这些应用的实时性和用户体验。此外,该方法还可以促进扩散模型在资源受限设备上的部署,扩大其应用范围。

📄 摘要(原文)

Diffusion Large Language Models (DLLMs) enable fully parallel token decoding but often remain impractical at inference time due to the many denoising iterations required to refine an information-free, fully masked initialization into coherent text. Most existing acceleration methods focus on traversing this generative trajectory more efficiently via improved solvers or sampling strategies. We advance a complementary perspective: shorten the trajectory itself by starting closer to the target distribution through context-aware initialization. We propose a training-free interface that injects prompt-conditioned priors from a lightweight auxiliary model into the diffusion initialization, and instantiate it with two mechanisms: discrete token injection and representation-level embedding interpolation. Because injected priors can be imperfect and unmask-only decoding can over-commit early, we also introduce a simple confidence-based remasking mechanism as a form of prior skepticism. Preliminary evidence on GSM8K suggests that context-aware initialization can substantially reduce denoising iterations (about 35\% fewer function evaluations in our setting), while also exposing a key open challenge: naive warm-starting can degrade final accuracy relative to strong diffusion baselines. We use these findings to motivate a research agenda around calibration, revision mechanisms, and representation alignment for reliable warm-started diffusion decoding.