Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding
作者: Tao Jin, Phuong Minh Nguyen, Naoya Inoue
分类: cs.CL, cs.AI
发布日期: 2026-04-02
💡 一句话要点
GOOSE:利用各向异性推测树实现免训练推测解码,加速大语言模型推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推测解码 大语言模型 模型加速 免训练 各向异性树
📋 核心要点
- 现有推测解码方法在token来源质量上存在差异,导致树结构并非最优。
- GOOSE提出各向异性推测树,根据token来源质量自适应调整树的深度和广度。
- 实验表明,GOOSE在多个LLM和基准测试中实现了显著的加速,优于现有方法。
📝 摘要(中文)
推测解码通过起草多个候选token并在单个前向传播中验证它们来加速大型语言模型的推理。候选token被组织成树状结构:更深的树每步接受更多的token,但增加深度需要在固定验证预算下牺牲广度(回退选项)。现有的免训练方法从单一token源起草,并且在塑造树时没有区分不同来源的候选质量。我们观察到两种常见的免训练token来源——从输入上下文中复制的n-gram匹配和来自先前前向传播的统计预测——在接受率上差异巨大(中位数差距约为6倍,在五个模型和五个基准测试中范围为2-18倍)。我们证明,当存在这种质量差距时,最优树是各向异性的(不对称的):可靠的token应该形成一条深链,而不可靠的token应该展开为宽分支,突破平衡树的深度限制。我们在GOOSE中实现了这种结构,GOOSE是一个免训练框架,它构建了一个自适应脊柱树——一条由高接受率的上下文匹配token组成的长链,每个节点都有低接受率的替代方案的宽分支。我们证明,每步接受的token数量至少与单独使用任一来源一样多。在五个LLM(7B-33B)和五个基准测试中,GOOSE实现了1.9-4.3倍的无损加速,在相同预算下优于平衡树基线12-33%。
🔬 方法详解
问题定义:推测解码旨在加速大型语言模型的推理过程。现有免训练推测解码方法通常采用平衡树结构,没有充分考虑不同token来源的质量差异,导致次优的解码效率。具体来说,从输入上下文复制的n-gram匹配和来自先前前向传播的统计预测,这两种常见的token来源在接受率上存在显著差异,而现有方法未能有效利用这种差异。
核心思路:GOOSE的核心思路是构建各向异性推测树,即根据token来源的质量自适应地调整树的结构。对于高质量的token来源(如上下文匹配),构建更深的链,以充分利用其高接受率;对于低质量的token来源(如统计预测),构建更宽的分支,以增加探索空间。通过这种方式,GOOSE能够突破平衡树的深度限制,提高每步接受的token数量。
技术框架:GOOSE构建自适应脊柱树,主要包含以下几个阶段:1. token来源选择:选择高质量的token来源(如上下文匹配)作为脊柱,构建深链。2. 分支生成:在脊柱的每个节点,使用低质量的token来源(如统计预测)生成多个候选分支。3. 验证:使用目标语言模型验证脊柱和分支上的token。4. 接受/拒绝:根据验证结果,接受或拒绝token,并更新树结构。
关键创新:GOOSE最重要的创新点在于提出了各向异性推测树的概念,并将其应用于免训练推测解码。与现有方法的平衡树结构相比,GOOSE能够更好地利用不同token来源的质量差异,从而提高解码效率。此外,GOOSE是完全免训练的,无需额外的训练数据或模型。
关键设计:GOOSE的关键设计包括:1. 自适应脊柱长度:根据上下文匹配的质量动态调整脊柱的长度。2. 分支宽度控制:根据统计预测的质量控制分支的宽度。3. 验证预算分配:根据脊柱和分支的长度和宽度,合理分配验证预算。
🖼️ 关键图片
📊 实验亮点
GOOSE在五个LLM(7B-33B)和五个基准测试中实现了1.9-4.3倍的无损加速。在相同预算下,GOOSE优于平衡树基线12-33%。这些结果表明,GOOSE能够有效地利用不同token来源的质量差异,从而显著提高推测解码的效率。例如,在某些模型和基准测试中,GOOSE的加速效果超过了4倍,表明其在加速大型语言模型推理方面具有巨大的潜力。
🎯 应用场景
GOOSE可应用于各种需要加速大型语言模型推理的场景,例如:在线对话系统、文本生成、机器翻译等。通过提高推理速度,GOOSE可以降低计算成本,提升用户体验,并促进大型语言模型在资源受限环境中的部署。未来,该方法可以进一步扩展到其他类型的语言模型和硬件平台。
📄 摘要(原文)
Speculative decoding accelerates large language model inference by drafting multiple candidate tokens and verifying them in a single forward pass. Candidates are organized as a tree: deeper trees accept more tokens per step, but adding depth requires sacrificing breadth (fallback options) under a fixed verification budget. Existing training-free methods draft from a single token source and shape their trees without distinguishing candidate quality across origins. We observe that two common training-free token sources - n-gram matches copied from the input context, and statistical predictions from prior forward passes - differ dramatically in acceptance rate (~6x median gap, range 2-18x across five models and five benchmarks). We prove that when such a quality gap exists, the optimal tree is anisotropic (asymmetric): reliable tokens should form a deep chain while unreliable tokens spread as wide branches, breaking through the depth limit of balanced trees. We realize this structure in GOOSE, a training-free framework that builds an adaptive spine tree - a deep chain of high-acceptance context-matched tokens with wide branches of low-acceptance alternatives at each node. We prove that the number of tokens accepted per step is at least as large as that of either source used alone. On five LLMs (7B-33B) and five benchmarks, GOOSE achieves 1.9-4.3x lossless speedup, outperforming balanced-tree baselines by 12-33% under the same budget.