From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
作者: Yuanjie Lyu, Chengyu Wang, Jun Huang, Tong Xu
分类: cs.CL, cs.AI
发布日期: 2025-09-12 (更新: 2025-10-09)
💡 一句话要点
提出SCoRe框架,通过强化蒸馏提升小模型Agent在复杂任务中的性能,媲美大模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型Agent 蒸馏学习 强化学习 知识迁移 模型压缩
📋 核心要点
- 现有Agent蒸馏方法易受教师-学生模型能力差距影响,导致误差累积,影响学生模型性能。
- SCoRe框架以学生为中心,通过教师纠正学生轨迹中的早期错误,生成更适合学生能力的训练数据。
- SCoRe结合微调和短程强化学习,鼓励学生自主解决问题,显著提升了小模型Agent的性能。
📝 摘要(中文)
大型语言模型Agent擅长通过迭代推理和工具使用解决复杂任务,但通常依赖于超大型、高成本的骨干模型。现有的蒸馏方法训练较小的学生模型来模仿完整的教师模型轨迹,但教师和学生之间的推理和知识差距可能导致误差累积。我们提出了SCoRe,一个以学生为中心的框架,其中学生生成训练轨迹,教师仅纠正最早的错误,从而产生与学生能力相匹配的训练数据,并暴露特定的弱点。学生首先在纠正后的轨迹上进行微调。随后,从验证过的、最早错误之前的序列开始进行短程强化学习,并在该步骤分配目标奖励。这种设计鼓励超越模仿的自主问题解决,并增强训练稳定性。在12个具有挑战性的基准测试中,使用SCoRe蒸馏的70亿参数学生模型与720亿参数教师模型的Agent性能相匹配。
🔬 方法详解
问题定义:现有的大型语言模型Agent虽然在复杂任务中表现出色,但依赖于参数量巨大的模型,计算成本高昂。传统的蒸馏方法直接让小模型模仿大模型的行为,然而大模型和小模型之间存在推理能力和知识储备的差距,导致在模仿过程中误差不断累积,最终影响小模型的性能。因此,如何有效地将大模型的Agent能力迁移到小模型,同时避免误差累积,是一个亟待解决的问题。
核心思路:SCoRe的核心思路是以学生模型为中心,让学生模型主动探索,并由教师模型进行针对性的指导。具体来说,学生模型首先生成自己的轨迹,然后教师模型只纠正学生轨迹中最早出现的错误。这样生成的训练数据更符合学生模型的能力,避免了让学生模型直接模仿超出其能力范围的行为。此外,SCoRe还利用强化学习,鼓励学生模型在教师模型指导的基础上进行自主探索,进一步提升其解决问题的能力。
技术框架:SCoRe框架主要包含两个阶段:纠正轨迹微调和短程强化学习。在纠正轨迹微调阶段,学生模型生成轨迹,教师模型纠正最早的错误,然后使用纠正后的轨迹对学生模型进行微调。在短程强化学习阶段,从验证过的、最早错误之前的序列开始,利用强化学习算法训练学生模型,并在该步骤分配目标奖励。通过这种方式,鼓励学生模型在教师模型指导的基础上进行自主探索。
关键创新:SCoRe的关键创新在于其以学生为中心的训练方式。传统的蒸馏方法往往忽略了学生模型的能力,直接让学生模型模仿教师模型的行为。而SCoRe则充分考虑了学生模型的能力,通过教师模型纠正学生轨迹中的早期错误,生成更适合学生模型的训练数据。此外,SCoRe还利用强化学习,鼓励学生模型在教师模型指导的基础上进行自主探索,进一步提升其解决问题的能力。
关键设计:SCoRe的关键设计包括:1) 教师模型只纠正学生轨迹中最早的错误,避免了误差累积;2) 使用短程强化学习,鼓励学生模型在教师模型指导的基础上进行自主探索;3) 在强化学习阶段,在验证过的、最早错误之前的序列开始,并在该步骤分配目标奖励,引导学生模型朝着正确的方向前进。具体的参数设置和损失函数选择取决于具体的任务和模型。
📊 实验亮点
实验结果表明,使用SCoRe框架蒸馏的70亿参数学生模型,在12个具有挑战性的基准测试中,Agent性能与720亿参数的教师模型相匹配。这表明SCoRe框架能够有效地将大型语言模型Agent的能力迁移到小型模型,并且在性能上取得了显著的提升。
🎯 应用场景
SCoRe框架可应用于各种需要Agent进行复杂推理和工具使用的场景,例如智能客服、自动化编程、游戏AI等。通过将大型语言模型Agent的能力迁移到小型模型,可以降低计算成本,提高部署效率,使得Agent技术能够更广泛地应用。
📄 摘要(原文)
Large Language Model agents excel at solving complex tasks through iterative reasoning and tool use, but typically depend on ultra-large, costly backbones. Existing distillation approaches train smaller students to imitate full teacher trajectories, yet reasoning and knowledge gaps between the teacher and student can cause compounding errors. We propose SCoRe, a student-centered framework in which the student generates training trajectories and the teacher corrects only the earliest error, producing training data matched to the student's ability and exposing specific weaknesses. The student is first fine-tuned on corrected trajectories. Subsequently, short-horizon reinforcement learning starts from the verified prefix preceding the earliest error, with target rewards assigned at that step. This design encourages autonomous problem-solving beyond imitation and enhances training stability. On 12 challenging benchmarks, a 7B-parameter student distilled with SCoRe matches the agentic performance of a 72B-parameter teacher.