ADEPT: Adaptive Dynamic Early-Exit Process for Transformers

📄 arXiv: 2601.03700v1 📥 PDF

作者: Sangmin Yoo, Srikanth Malla, Chiho Choi, Wei D. Lu, Joon Hee Choi

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 11 figures, 8 tables, 22 pages


💡 一句话要点

ADEPT:Transformer的自适应动态早退机制,提升推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Transformer 早退机制 动态推理 KV缓存 自适应计算

📋 核心要点

  1. 现有早退策略在Transformer中应用受限,无法充分利用跳过层的KV缓存,导致效率提升有限。
  2. ADEPT提出自适应token级早退机制,根据token复杂性动态调整计算,并解耦跳过层的顺序依赖性。
  3. 实验表明,ADEPT在语言生成任务中效率提升高达25%,在下游分类任务中加速4倍,性能提升高达45%。

📝 摘要(中文)

大型语言模型的推理需要巨大的计算量,通常涉及数十亿的参数。虽然早退策略已被证明能有效减少计算需求,但它们要么仅应用于生成阶段的第一个token,要么应用于预填充阶段的prompt级别。因此,跳过层的Key-Value (KV)缓存仍然是后续token生成的瓶颈,限制了早退的优势。我们提出了ADEPT (Adaptive Dynamic Early-exit Process for Transformers),一种旨在克服此问题并在预填充和生成阶段实现动态早退的新方法。所提出的自适应token级早退机制根据token的复杂性动态调整计算,优化效率而不影响性能。ADEPT通过解耦跳过层中的顺序依赖性来进一步增强KV生成过程,使token级早退更实用。实验结果表明,ADEPT在语言生成任务中提高了高达25%的效率,并在下游分类任务中实现了4倍的加速,性能提升高达45%。

🔬 方法详解

问题定义:现有Transformer模型的早退策略主要在预填充阶段的prompt级别或生成阶段的第一个token上进行,无法充分利用跳过层的KV缓存。这导致后续token生成仍然需要计算所有层,限制了早退策略的效率提升。因此,如何实现token级别的动态早退,并有效利用跳过层的KV缓存,是本文要解决的核心问题。

核心思路:ADEPT的核心思路是引入自适应的token级早退机制,该机制能够根据每个token的复杂程度动态决定是否需要通过所有层。对于复杂度较低的token,可以在较早的层退出,从而减少计算量。同时,通过解耦跳过层的顺序依赖性,使得跳过某些层成为可能,并有效利用KV缓存。

技术框架:ADEPT主要包含两个关键模块:自适应早退决策模块和KV缓存解耦模块。自适应早退决策模块负责根据token的复杂程度动态决定是否提前退出。KV缓存解耦模块则负责处理跳过层带来的KV缓存不一致问题,确保后续token的生成能够正确进行。整体流程为:输入token序列,自适应早退决策模块判断每个token是否需要提前退出,如果需要,则跳过后续层,并利用KV缓存解耦模块处理KV缓存,最后生成输出。

关键创新:ADEPT最重要的技术创新点在于实现了token级别的动态早退,并解决了跳过层带来的KV缓存不一致问题。与现有方法相比,ADEPT能够更精细地控制计算量,并充分利用跳过层的KV缓存,从而显著提升推理效率。

关键设计:自适应早退决策模块可以使用一个小型神经网络来预测每个token的退出层。该网络的输入可以是token的embedding向量或中间层的输出。KV缓存解耦模块可以通过引入额外的参数或修改KV缓存的结构来实现。损失函数可以包括预测退出层的准确率损失和生成结果的质量损失。

📊 实验亮点

ADEPT在语言生成任务中实现了高达25%的效率提升,并在下游分类任务中实现了4倍的加速,同时性能提升高达45%。这些结果表明,ADEPT能够显著提高Transformer模型的推理效率,并在各种应用中带来实际价值。与现有早退策略相比,ADEPT在效率和性能上都取得了显著的提升。

🎯 应用场景

ADEPT可广泛应用于各种需要高效Transformer推理的场景,例如移动设备上的自然语言处理、实时翻译、语音识别等。通过降低计算需求,ADEPT能够使这些应用在资源受限的设备上运行,并提高响应速度。此外,ADEPT还可以用于加速大型语言模型的训练和部署,降低成本。

📄 摘要(原文)

The inference of large language models imposes significant computational workloads, often requiring the processing of billions of parameters. Although early-exit strategies have proven effective in reducing computational demands by halting inference earlier, they apply either to only the first token in the generation phase or at the prompt level in the prefill phase. Thus, the Key-Value (KV) cache for skipped layers remains a bottleneck for subsequent token generation, limiting the benefits of early exit. We introduce ADEPT (Adaptive Dynamic Early-exit Process for Transformers), a novel approach designed to overcome this issue and enable dynamic early exit in both the prefill and generation phases. The proposed adaptive token-level early-exit mechanism adjusts computation dynamically based on token complexity, optimizing efficiency without compromising performance. ADEPT further enhances KV generation procedure by decoupling sequential dependencies in skipped layers, making token-level early exit more practical. Experimental results demonstrate that ADEPT improves efficiency by up to 25% in language generation tasks and achieves a 4x speed-up in downstream classification tasks, with up to a 45% improvement in performance.