Fast-dLLM v2: Efficient Block-Diffusion LLM

作者: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie

分类: cs.CL

发布日期: 2025-09-30

💡 一句话要点

Fast-dLLM v2：高效块扩散语言模型，加速并行文本生成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 块扩散语言模型 并行文本生成 高效推理 分层缓存 自回归模型 互补注意力掩码 低资源微调

📋 核心要点

自回归LLM推理效率受限于顺序解码，成为实际应用的瓶颈。
Fast-dLLM v2通过块扩散机制和互补注意力掩码，将预训练AR模型转化为支持并行生成的dLLM。
实验表明，Fast-dLLM v2在保持或超过AR模型准确率的同时，实现了高达2.5倍的推理加速。

📝 摘要（中文）

自回归（AR）大型语言模型（LLM）在各种自然语言任务中取得了显著的性能，但其固有的顺序解码限制了推理效率。本文提出了Fast-dLLM v2，一种精心设计的块扩散语言模型（dLLM），它能有效地将预训练的AR模型适配为dLLM，用于并行文本生成，仅需约10亿token的微调。与Dream等全注意力扩散LLM（5800亿token）相比，这减少了500倍的训练数据，同时保留了原始模型的性能。我们的方法引入了一种新的训练方案，将块扩散机制与互补注意力掩码相结合，从而实现块状双向上下文建模，而不会牺牲AR训练目标。为了进一步加速解码，我们设计了一种分层缓存机制：块级缓存，用于存储跨块的历史上下文表示；子块缓存，用于在部分解码的块内实现高效的并行生成。结合我们的并行解码流水线，Fast-dLLM v2在不影响生成质量的前提下，实现了比标准AR解码高达2.5倍的加速。在各种基准测试中进行的大量实验表明，Fast-dLLM v2在准确性方面与AR基线相匹配或超过，同时在dLLM中提供了最先进的效率——标志着朝着快速准确的LLM的实际部署迈出了重要一步。代码和模型将公开发布。

🔬 方法详解

问题定义：现有自回归（AR）大型语言模型在推理时需要顺序解码，效率较低，难以满足实际应用的需求。全注意力扩散语言模型虽然支持并行生成，但需要大量的训练数据，成本高昂。因此，如何在降低训练成本的同时，实现LLM的并行高效生成是一个关键问题。

核心思路：Fast-dLLM v2的核心思路是将预训练的AR模型转化为块扩散语言模型（dLLM），利用块扩散机制实现并行文本生成。通过结合块扩散机制和互补注意力掩码，模型可以在块级别进行双向上下文建模，同时保留AR模型的训练目标，从而减少了对大量训练数据的需求。

技术框架：Fast-dLLM v2的整体框架包括以下几个主要模块：1) 块扩散机制：将文本分成块，并使用扩散过程并行生成这些块。2) 互补注意力掩码：在训练过程中，使用互补注意力掩码来保留AR模型的训练目标，同时允许块级别的双向上下文建模。3) 分层缓存机制：包括块级缓存和子块缓存，用于存储历史上下文表示，加速解码过程。4) 并行解码流水线：利用并行计算资源，加速块的生成和解码。

关键创新：Fast-dLLM v2的关键创新在于其高效的训练方法和分层缓存机制。与需要大量训练数据的全注意力扩散LLM相比，Fast-dLLM v2仅需少量微调即可实现并行生成，大大降低了训练成本。分层缓存机制进一步加速了解码过程，提高了推理效率。

关键设计：在训练过程中，使用了块扩散损失和AR损失的加权组合，以平衡并行生成和序列建模的能力。互补注意力掩码的设计允许模型在块内进行双向注意力计算，同时限制块间的注意力，以保留AR模型的因果关系。分层缓存机制中的块大小和子块大小是重要的超参数，需要根据具体的任务和模型大小进行调整。

📊 实验亮点

Fast-dLLM v2在多个基准测试中表现出色，在准确性方面与AR基线相匹配或超过。更重要的是，它实现了高达2.5倍的推理加速，同时仅需约10亿token的微调，与全注意力扩散LLM相比，训练数据减少了500倍。这些结果表明，Fast-dLLM v2在效率和准确性之间取得了良好的平衡，是dLLM领域的一项重要进展。

🎯 应用场景

Fast-dLLM v2具有广泛的应用前景，例如：实时对话系统、机器翻译、文本摘要、代码生成等。其高效的并行生成能力可以显著降低延迟，提高用户体验。此外，由于其训练成本较低，可以更容易地部署在资源受限的设备上，例如移动设备和边缘计算平台。未来，该技术有望推动LLM在更多实际场景中的应用。

📄 摘要（原文）

Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.

Fast-dLLM v2: Efficient Block-Diffusion LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册