RelayLLM: Efficient Reasoning via Collaborative Decoding
作者: Chengsong Huang, Tong Zheng, Langlin Huang, Jinyuan Li, Haolin Liu, Jiaxin Huang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-01-08
💡 一句话要点
RelayLLM:提出一种token级协同解码框架,通过动态调度LLM显著提升推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 协同推理 token级调度 大型语言模型 小型语言模型 效率优化 强化学习 策略优化
📋 核心要点
- 现有协同推理方法粒度粗放,SLM有能力处理的推理步骤也被强制交给LLM,造成计算资源浪费。
- RelayLLM让SLM作为主动控制器,仅在生成关键token时动态调用LLM,实现token级别的协同解码。
- RelayLLM在六个基准测试中取得了平均49.52%的准确率,且仅需LLM生成1.07%的token,成本大幅降低。
📝 摘要(中文)
大型语言模型(LLM)在复杂推理中面临高计算成本和延迟的挑战,而资源高效的小型语言模型(SLM)通常缺乏必要的推理能力。现有的协同方法,如级联或路由,以粗粒度的方式运行,将整个查询卸载到LLM,当SLM能够处理大部分推理步骤时,导致显著的计算浪费。为了解决这个问题,我们提出了RelayLLM,一种新颖的框架,通过token级别的协同解码实现高效推理。与路由器不同,RelayLLM使SLM能够充当主动控制器,仅通过特殊命令动态调用LLM来生成关键token,从而有效地“传递”生成过程。我们引入了一个两阶段训练框架,包括预热和组相对策略优化(GRPO),以训练模型在独立性和战略性寻求帮助之间取得平衡。在六个基准测试上的经验结果表明,RelayLLM实现了平均49.52%的准确率,有效地弥合了两个模型之间的性能差距。值得注意的是,这是通过仅调用LLM生成总token的1.07%来实现的,与性能匹配的随机路由器相比,成本降低了98.2%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)推理成本高昂,而小型语言模型(SLM)推理能力不足的问题。现有协同推理方法,如级联或路由,通常以粗粒度的方式将整个推理任务交给LLM,即使SLM有能力处理部分任务,也无法避免LLM的调用,导致计算资源浪费。
核心思路:RelayLLM的核心思路是让SLM作为主动控制器,在token级别动态决定是否需要LLM的帮助。SLM在生成每个token时,会判断当前token是否需要LLM的专业知识,如果需要,则向LLM“relay”生成过程,否则SLM独立生成。这种token级别的协同解码能够充分利用SLM的计算效率,同时在必要时借助LLM的强大推理能力。
技术框架:RelayLLM的整体框架包含SLM控制器和LLM专家。SLM负责大部分token的生成,并决定何时调用LLM。当SLM认为需要LLM的帮助时,会发出一个特殊的“relay”命令,将当前上下文传递给LLM。LLM生成一个或多个token后,将结果返回给SLM,SLM继续后续的生成过程。整个过程循环进行,直到生成完整的推理结果。
关键创新:RelayLLM最重要的创新点在于token级别的动态调度机制。与现有方法相比,RelayLLM能够更精细地控制LLM的使用,避免不必要的计算开销。通过让SLM主动判断是否需要LLM的帮助,RelayLLM能够更好地平衡计算效率和推理能力。
关键设计:RelayLLM采用两阶段训练框架。第一阶段是warm-up,用于训练SLM的独立推理能力。第二阶段是Group Relative Policy Optimization (GRPO),用于训练SLM的调度策略,使其能够准确判断何时需要LLM的帮助。GRPO的目标是最大化整体推理准确率,同时最小化LLM的调用次数。具体而言,GRPO使用强化学习方法,将SLM的调度决策视为一个策略,并使用奖励函数来鼓励SLM在必要时寻求帮助,同时避免过度依赖LLM。
📊 实验亮点
RelayLLM在六个基准测试中取得了显著的性能提升。平均准确率达到49.52%,有效弥合了SLM和LLM之间的性能差距。更重要的是,RelayLLM仅需调用LLM生成1.07%的token,与性能匹配的随机路由器相比,成本降低了98.2%。这表明RelayLLM能够在保证推理质量的同时,显著降低计算成本。
🎯 应用场景
RelayLLM可应用于各种需要高效推理的场景,例如智能客服、自动问答、代码生成等。通过结合SLM的效率和LLM的强大能力,RelayLLM能够在资源受限的环境下提供高质量的推理服务。未来,RelayLLM可以进一步扩展到多模态推理、知识图谱推理等领域,具有广阔的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) for complex reasoning is often hindered by high computational costs and latency, while resource-efficient Small Language Models (SLMs) typically lack the necessary reasoning capacity. Existing collaborative approaches, such as cascading or routing, operate at a coarse granularity by offloading entire queries to LLMs, resulting in significant computational waste when the SLM is capable of handling the majority of reasoning steps. To address this, we propose RelayLLM, a novel framework for efficient reasoning via token-level collaborative decoding. Unlike routers, RelayLLM empowers the SLM to act as an active controller that dynamically invokes the LLM only for critical tokens via a special command, effectively "relaying" the generation process. We introduce a two-stage training framework, including warm-up and Group Relative Policy Optimization (GRPO) to teach the model to balance independence with strategic help-seeking. Empirical results across six benchmarks demonstrate that RelayLLM achieves an average accuracy of 49.52%, effectively bridging the performance gap between the two models. Notably, this is achieved by invoking the LLM for only 1.07% of the total generated tokens, offering a 98.2% cost reduction compared to performance-matched random routers.