CD4LM: Consistency Distillation and aDaptive Decoding for Diffusion Language Models
作者: Yihao Liang, Ze Wang, Hao Chen, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Emad Barsoum, Zicheng Liu, Niraj K. Jha
分类: cs.CL
发布日期: 2026-01-05
备注: 33 pages, 7 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出CD4LM框架,通过一致性蒸馏和自适应解码加速扩散语言模型的并行生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 一致性蒸馏 自适应解码 并行生成 模型加速
📋 核心要点
- 扩散语言模型训练与推理存在“静态到动态不对齐”问题,导致推理效率低下。
- CD4LM通过离散空间一致性蒸馏(DSCD)和置信度自适应解码(CAD)解耦训练与推理过程。
- 实验表明,CD4LM在保证精度的前提下,显著提升了扩散语言模型的推理速度。
📝 摘要(中文)
自回归大型语言模型在许多基准测试中表现出色,但解码速度受限于token间的顺序依赖。扩散语言模型(DLM)有望实现并行生成,但存在静态到动态的不对齐问题:训练在固定schedule下优化局部转换,而高效推理需要通过未见状态进行自适应的“长跳跃”优化。为了在保持生成质量的同时,实现DLM的高并行解码和低函数评估次数,我们提出了CD4LM,一个通过离散空间一致性蒸馏(DSCD)和置信度自适应解码(CAD)将训练与推理解耦的框架。与标准目标不同,DSCD训练学生模型具有轨迹不变性,直接将各种噪声状态映射到干净分布。这种内在的鲁棒性使CAD能够基于token置信度动态分配计算资源,从而积极跳过步骤,而不会像启发式加速那样导致质量下降。在GSM8K上,CD4LM与LLaDA基线匹配,并实现了5.18倍的加速;在代码和数学基准测试中,它严格地占据了精度-效率Pareto前沿,在提高平均精度的同时实现了3.62倍的平均加速。
🔬 方法详解
问题定义:扩散语言模型(DLM)虽然具有并行生成的潜力,但其训练过程通常在固定的噪声schedule下进行,这导致模型在推理时难以适应动态变化的噪声状态,从而限制了推理效率。现有的加速方法,如启发式跳步,容易导致生成质量下降。
核心思路:CD4LM的核心思路是通过一致性蒸馏,使模型学习到从任意噪声状态直接映射到干净分布的能力,从而增强模型的鲁棒性。在此基础上,利用置信度自适应解码,根据token的置信度动态调整计算资源,实现高效的并行生成。
技术框架:CD4LM框架主要包含两个阶段:离散空间一致性蒸馏(DSCD)和置信度自适应解码(CAD)。DSCD阶段训练一个学生模型,使其能够从不同的噪声状态预测相同的干净分布。CAD阶段利用学生模型进行推理,并根据每个token的置信度动态调整采样步数,从而在保证生成质量的同时提高推理速度。
关键创新:CD4LM的关键创新在于将一致性蒸馏应用于扩散语言模型,并结合置信度自适应解码。与传统的训练方法相比,DSCD能够使模型学习到更强的鲁棒性,从而更好地适应推理过程中的动态变化。CAD则能够根据token的置信度动态调整计算资源,避免了启发式方法的质量下降问题。
关键设计:DSCD使用L2损失函数来衡量学生模型和教师模型预测结果之间的一致性。CAD使用token的置信度作为跳步的依据,置信度高的token可以跳过更多的采样步骤。具体的置信度计算方法未知,论文中可能未详细描述。
🖼️ 关键图片
📊 实验亮点
CD4LM在GSM8K数据集上与LLaDA基线性能相当,同时实现了5.18倍的加速。在代码和数学基准测试中,CD4LM在精度和效率方面均优于现有方法,平均加速3.62倍,并提高了平均精度。这些结果表明,CD4LM能够有效地提高扩散语言模型的推理效率,同时保持甚至提高生成质量。
🎯 应用场景
CD4LM框架可应用于各种需要快速文本生成的场景,例如机器翻译、文本摘要、对话系统和代码生成等。通过提高扩散语言模型的推理效率,可以降低计算成本,并使其更适用于实时应用。该研究对于推动扩散模型在自然语言处理领域的应用具有重要意义。
📄 摘要(原文)
Autoregressive large language models achieve strong results on many benchmarks, but decoding remains fundamentally latency-limited by sequential dependence on previously generated tokens. Diffusion language models (DLMs) promise parallel generation but suffer from a fundamental static-to-dynamic misalignment: Training optimizes local transitions under fixed schedules, whereas efficient inference requires adaptive "long-jump" refinements through unseen states. Our goal is to enable highly parallel decoding for DLMs with low number of function evaluations while preserving generation quality. To achieve this, we propose CD4LM, a framework that decouples training from inference via Discrete-Space Consistency Distillation (DSCD) and Confidence-Adaptive Decoding (CAD). Unlike standard objectives, DSCD trains a student to be trajectory-invariant, mapping diverse noisy states directly to the clean distribution. This intrinsic robustness enables CAD to dynamically allocate compute resources based on token confidence, aggressively skipping steps without the quality collapse typical of heuristic acceleration. On GSM8K, CD4LM matches the LLaDA baseline with a 5.18x wall-clock speedup; across code and math benchmarks, it strictly dominates the accuracy-efficiency Pareto frontier, achieving a 3.62x mean speedup while improving average accuracy. Code is available at https://github.com/yihao-liang/CDLM