Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

作者: Guang Huang, Zeyi Wen

分类: cs.DC, cs.LG

发布日期: 2026-03-02

备注: 10 pages

🔗 代码/项目: GITHUB

💡 一句话要点

Quasar：通过量化自推测加速和内存高效验证，实现快速LLM推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推测解码 量化 大型语言模型 模型加速 低比特量化

📋 核心要点

现有推测解码方法将性能瓶颈转移到验证阶段，而验证过程受限于内存带宽，限制了加速效果。
Quasar提出一种免训练的量化框架，专门针对验证阶段进行低比特量化，以减少内存流量。
实验表明，Quasar在保持推测接受长度的同时，实现了端到端吞吐量1.28倍的提升，且与现有起草策略兼容。

📝 摘要（中文）

推测解码(SD)已成为加速大型语言模型(LLM)推理的首要技术，它将token生成解耦为快速起草和并行验证。虽然最近在自推测和前瞻解码方面的进展成功地减少了起草开销，但它们已将主要的性能瓶颈转移到验证阶段。由于验证需要目标模型的完整前向传递，因此它仍然严格受内存带宽限制，从根本上限制了可实现的最大加速。本文介绍Quasar，这是一种新颖的、免训练的框架，旨在通过专门为验证阶段采用低比特量化来克服这种“内存墙”。我们的实证分析表明，虽然激进的结构剪枝会显著降低验证准确性，但基于量化的验证可以高保真地保留logit分布，同时有效地将内存流量减半。在最先进模型（例如，OpenPangu和Qwen3）上的大量实验表明，Quasar保持了与全精度方法相当的推测接受长度，同时实现了1.28倍的端到端吞吐量提升。Quasar与现有的起草策略正交，为加速推测执行的验证环节提供了一条通用且高效的途径。

🔬 方法详解

问题定义：现有推测解码方法在加速大型语言模型推理时，验证阶段需要进行完整的前向传播，这导致验证过程受限于内存带宽，成为了性能瓶颈。现有的结构剪枝方法虽然可以减少计算量，但会显著降低验证的准确性。因此，如何在保证验证准确性的前提下，降低验证阶段的内存带宽需求，是本文要解决的关键问题。

核心思路：Quasar的核心思路是利用低比特量化来压缩验证阶段的模型参数和激活值，从而减少内存流量。作者发现，相比于结构剪枝，量化可以在大幅降低内存占用的同时，保持较高的logit分布相似度，从而保证验证的准确性。通过对验证阶段进行量化，可以有效地克服内存带宽的限制，提高整体的推理速度。

技术框架：Quasar框架主要包含两个阶段：起草阶段和验证阶段。起草阶段可以使用现有的任何起草策略，例如自推测或前瞻解码。验证阶段则使用量化后的模型进行前向传播，验证起草阶段生成的token是否正确。如果验证通过，则接受这些token；否则，回退到原始模型进行重新生成。Quasar框架的关键在于验证阶段的量化策略，它需要在保证验证准确性的前提下，尽可能地降低量化比特数。

关键创新：Quasar的关键创新在于将低比特量化应用于推测解码的验证阶段，从而克服了内存带宽的限制。与现有的结构剪枝方法相比，Quasar能够在保证验证准确性的前提下，更有效地降低内存流量。此外，Quasar是一种免训练的框架，可以直接应用于现有的推测解码方法，无需额外的训练开销。

关键设计：Quasar的关键设计在于量化策略的选择。作者通过实验发现，使用较低的量化比特数（例如，INT4或INT8）可以在显著降低内存流量的同时，保持较高的logit分布相似度。此外，作者还探索了不同的量化方法，例如对称量化和非对称量化，并选择了最适合验证阶段的量化方法。具体的量化参数设置（例如，量化范围和量化步长）需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

Quasar在OpenPangu和Qwen3等先进模型上进行了广泛的实验。实验结果表明，Quasar在保持与全精度方法相当的推测接受长度的同时，实现了1.28倍的端到端吞吐量提升。这表明Quasar能够有效地克服内存带宽的限制，提高推测解码的效率。此外，Quasar的免训练特性使其易于部署和应用。

🎯 应用场景

Quasar可广泛应用于各种需要快速推理的大型语言模型应用场景，例如在线对话系统、文本生成、机器翻译等。通过降低内存带宽需求，Quasar可以使这些应用在资源受限的设备上运行，例如移动设备或边缘服务器。此外，Quasar还可以与其他加速技术（例如，模型并行和张量分解）相结合，进一步提高推理速度。

📄 摘要（原文）

Speculative Decoding (SD) has emerged as a premier technique for accelerating Large Language Model (LLM) inference by decoupling token generation into rapid drafting and parallel verification. While recent advancements in self-speculation and lookahead decoding have successfully minimized drafting overhead, they have shifted the primary performance bottleneck to the verification phase. Since verification requires a full forward pass of the target model, it remains strictly memory-bandwidth bound, fundamentally limiting the maximum achievable speedup.In this paper, we introduce \textbf{Quasar} (\textbf{Qua}ntized \textbf{S}elf-speculative \textbf{A}cceleration for \textbf{R}apid Inference), a novel, training-free framework designed to overcome this "memory wall" by employing low-bit quantization specifically for the verification stage. Our empirical analysis reveals that while aggressive structural pruning significantly degrades verification accuracy, quantization-based verification preserves the logit distribution with high fidelity while effectively halving memory traffic. Extensive experiments on state-of-the-art models (e.g., OpenPangu and Qwen3) demonstrate that Quasar maintains a speculative acceptance length comparable to full-precision methods while achieving a $1.28\times$ improvement in end-to-end throughput. Being orthogonal to existing drafting strategies, Quasar offers a generic and efficient pathway to accelerate the verification leg of speculative execution. Code is available at https://github.com/Tom-HG/Quasar.

Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理