Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

📄 arXiv: 2603.01399v1 📥 PDF

作者: Guang Huang, Zeyi Wen

分类: cs.DC, cs.LG

发布日期: 2026-03-02

备注: 10 pages

🔗 代码/项目: GITHUB


💡 一句话要点

Quasar:通过量化自推测加速和内存高效验证,实现快速LLM推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推测解码 量化 大型语言模型 模型加速 低比特量化

📋 核心要点

  1. 现有推测解码方法将性能瓶颈转移到验证阶段,而验证过程受限于内存带宽,限制了加速效果。
  2. Quasar提出一种免训练的量化框架,专门针对验证阶段进行低比特量化,以减少内存流量。
  3. 实验表明,Quasar在保持推测接受长度的同时,实现了端到端吞吐量1.28倍的提升,且与现有起草策略兼容。

📝 摘要(中文)

推测解码(SD)已成为加速大型语言模型(LLM)推理的首要技术,它将token生成解耦为快速起草和并行验证。虽然最近在自推测和前瞻解码方面的进展成功地减少了起草开销,但它们已将主要的性能瓶颈转移到验证阶段。由于验证需要目标模型的完整前向传递,因此它仍然严格受内存带宽限制,从根本上限制了可实现的最大加速。本文介绍Quasar,这是一种新颖的、免训练的框架,旨在通过专门为验证阶段采用低比特量化来克服这种“内存墙”。我们的实证分析表明,虽然激进的结构剪枝会显著降低验证准确性,但基于量化的验证可以高保真地保留logit分布,同时有效地将内存流量减半。在最先进模型(例如,OpenPangu和Qwen3)上的大量实验表明,Quasar保持了与全精度方法相当的推测接受长度,同时实现了1.28倍的端到端吞吐量提升。Quasar与现有的起草策略正交,为加速推测执行的验证环节提供了一条通用且高效的途径。

🔬 方法详解

问题定义:现有推测解码方法在加速大型语言模型推理时,验证阶段需要进行完整的前向传播,这导致验证过程受限于内存带宽,成为了性能瓶颈。现有的结构剪枝方法虽然可以减少计算量,但会显著降低验证的准确性。因此,如何在保证验证准确性的前提下,降低验证阶段的内存带宽需求,是本文要解决的关键问题。

核心思路:Quasar的核心思路是利用低比特量化来压缩验证阶段的模型参数和激活值,从而减少内存流量。作者发现,相比于结构剪枝,量化可以在大幅降低内存占用的同时,保持较高的logit分布相似度,从而保证验证的准确性。通过对验证阶段进行量化,可以有效地克服内存带宽的限制,提高整体的推理速度。

技术框架:Quasar框架主要包含两个阶段:起草阶段和验证阶段。起草阶段可以使用现有的任何起草策略,例如自推测或前瞻解码。验证阶段则使用量化后的模型进行前向传播,验证起草阶段生成的token是否正确。如果验证通过,则接受这些token;否则,回退到原始模型进行重新生成。Quasar框架的关键在于验证阶段的量化策略,它需要在保证验证准确性的前提下,尽可能地降低量化比特数。

关键创新:Quasar的关键创新在于将低比特量化应用于推测解码的验证阶段,从而克服了内存带宽的限制。与现有的结构剪枝方法相比,Quasar能够在保证验证准确性的前提下,更有效地降低内存流量。此外,Quasar是一种免训练的框架,可以直接应用于现有的推测解码方法,无需额外的训练开销。

关键设计:Quasar的关键设计在于量化策略的选择。作者通过实验发现,使用较低的量化比特数(例如,INT4或INT8)可以在显著降低内存流量的同时,保持较高的logit分布相似度。此外,作者还探索了不同的量化方法,例如对称量化和非对称量化,并选择了最适合验证阶段的量化方法。具体的量化参数设置(例如,量化范围和量化步长)需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Quasar在OpenPangu和Qwen3等先进模型上进行了广泛的实验。实验结果表明,Quasar在保持与全精度方法相当的推测接受长度的同时,实现了1.28倍的端到端吞吐量提升。这表明Quasar能够有效地克服内存带宽的限制,提高推测解码的效率。此外,Quasar的免训练特性使其易于部署和应用。

🎯 应用场景

Quasar可广泛应用于各种需要快速推理的大型语言模型应用场景,例如在线对话系统、文本生成、机器翻译等。通过降低内存带宽需求,Quasar可以使这些应用在资源受限的设备上运行,例如移动设备或边缘服务器。此外,Quasar还可以与其他加速技术(例如,模型并行和张量分解)相结合,进一步提高推理速度。

📄 摘要(原文)

Speculative Decoding (SD) has emerged as a premier technique for accelerating Large Language Model (LLM) inference by decoupling token generation into rapid drafting and parallel verification. While recent advancements in self-speculation and lookahead decoding have successfully minimized drafting overhead, they have shifted the primary performance bottleneck to the verification phase. Since verification requires a full forward pass of the target model, it remains strictly memory-bandwidth bound, fundamentally limiting the maximum achievable speedup.In this paper, we introduce \textbf{Quasar} (\textbf{Qua}ntized \textbf{S}elf-speculative \textbf{A}cceleration for \textbf{R}apid Inference), a novel, training-free framework designed to overcome this "memory wall" by employing low-bit quantization specifically for the verification stage. Our empirical analysis reveals that while aggressive structural pruning significantly degrades verification accuracy, quantization-based verification preserves the logit distribution with high fidelity while effectively halving memory traffic. Extensive experiments on state-of-the-art models (e.g., OpenPangu and Qwen3) demonstrate that Quasar maintains a speculative acceptance length comparable to full-precision methods while achieving a $1.28\times$ improvement in end-to-end throughput. Being orthogonal to existing drafting strategies, Quasar offers a generic and efficient pathway to accelerate the verification leg of speculative execution. Code is available at https://github.com/Tom-HG/Quasar.