A Survey of On-Policy Distillation for Large Language Models
作者: Mingyang Song, Mao Zheng
分类: cs.LG, cs.CL
发布日期: 2026-04-01
💡 一句话要点
针对大语言模型的On-Policy蒸馏方法综述,解决暴露偏差问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: On-Policy蒸馏 知识蒸馏 大语言模型 暴露偏差 模仿学习
📋 核心要点
- 现有离策略知识蒸馏方法存在暴露偏差,导致学生模型在推理时误差累积。
- On-Policy蒸馏(OPD)让学生模型生成轨迹并接收教师反馈,缓解训练-测试不匹配。
- 该综述构建统一的f-散度框架,并从反馈信号、教师访问和损失粒度三个维度分析OPD方法。
📝 摘要(中文)
知识蒸馏已成为将前沿大语言模型(LLMs)的推理能力和领域知识迁移到更小、可部署的学生模型的关键机制。然而,目前的主流范式仍然是离策略(off-policy)的:学生模型在教师模型生成的静态数据上进行训练,在学习过程中从未遇到过自己的错误。这种训练-测试不匹配,即暴露偏差(exposure bias)的一个实例,会导致预测误差在推理时自回归地累积。On-Policy蒸馏(OPD)通过让学生模型生成自己的轨迹,并接收教师模型对这些自我生成输出的反馈来解决这个问题,从而将蒸馏建立在交互式模仿学习的理论基础上。尽管OPD的研究迅速发展,涵盖了散度最小化、奖励引导学习和自博弈等多个方面,但文献仍然分散,缺乏统一的处理。本综述提供了第一个针对LLMs的OPD的全面概述。我们引入了一个基于on-policy样本的统一$f$-散度框架,并沿着三个正交维度组织了研究领域:反馈信号(基于logits、基于结果或自博弈)、教师访问(白盒、黑盒或无教师)和损失粒度(token级别、序列级别或混合)。我们系统地分析了代表性方法,考察了工业部署,并确定了开放性问题,包括蒸馏缩放定律、不确定性感知反馈和agent级别的蒸馏。
🔬 方法详解
问题定义:现有的大语言模型知识蒸馏方法,特别是离策略蒸馏,主要依赖于教师模型预先生成的数据集进行训练。这种方式忽略了学生模型自身的生成能力和可能产生的错误,导致训练和测试环境存在差异,即“暴露偏差”。学生模型在实际应用中会遇到训练数据中没有出现的情况,从而导致误差累积,影响性能。
核心思路:On-Policy蒸馏的核心思想是让学生模型参与到训练循环中,生成自己的输出,并根据教师模型的反馈进行学习。这样可以使学生模型更好地适应自身的生成分布,减少训练和测试之间的差异,从而缓解暴露偏差。这种方法借鉴了强化学习和模仿学习的思想,将知识蒸馏过程视为一个交互式的学习过程。
技术框架:On-Policy蒸馏的整体框架通常包括以下几个主要模块:1) 学生模型:负责生成文本序列。2) 教师模型:提供反馈信号,指导学生模型的学习。3) 采样策略:决定如何生成学生模型的输出,例如,可以使用贪婪解码或采样方法。4) 反馈机制:定义教师模型如何评估学生模型的输出,并提供相应的反馈信号。5) 损失函数:用于衡量学生模型的输出与教师模型的目标之间的差异,并指导学生模型的参数更新。
关键创新:On-Policy蒸馏的关键创新在于引入了学生模型与环境(教师模型)的交互,使得学生模型可以在自身的生成分布上进行学习,从而更好地适应实际应用场景。与离策略蒸馏相比,On-Policy蒸馏能够更有效地缓解暴露偏差,提高学生模型的性能。此外,不同的On-Policy蒸馏方法在反馈信号的设计、教师模型的访问方式以及损失函数的选择上存在差异,这些差异也构成了On-Policy蒸馏领域的研究热点。
关键设计:On-Policy蒸馏的关键设计包括:1) 反馈信号:可以选择基于logits的反馈、基于结果的反馈或自博弈的反馈。2) 教师访问:可以选择白盒访问、黑盒访问或无教师访问。3) 损失粒度:可以选择token级别、序列级别或混合级别的损失函数。此外,采样策略的选择、学习率的调整以及正则化方法的应用也会影响On-Policy蒸馏的性能。
📊 实验亮点
该综述系统性地分析了On-Policy蒸馏的代表性方法,并从反馈信号、教师访问和损失粒度三个维度进行了分类。此外,文章还探讨了On-Policy蒸馏在工业界的部署情况,并指出了未来研究方向,例如蒸馏缩放定律、不确定性感知反馈和agent级别的蒸馏。这些分析为研究人员和工程师提供了宝贵的参考。
🎯 应用场景
On-Policy蒸馏技术可广泛应用于各种需要部署小型化、低延迟大语言模型的场景,例如移动设备上的智能助手、边缘计算环境下的实时翻译、以及资源受限的嵌入式系统中的自然语言处理任务。通过将大型预训练模型的知识迁移到小型模型,可以实现性能与效率的平衡,加速大语言模型在实际应用中的落地。
📄 摘要(原文)
Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains \textit{off-policy}: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of \textit{exposure bias}, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified $f$-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: \emph{feedback signal} (logit-based, outcome-based, or self-play), \emph{teacher access} (white-box, black-box, or teacher-free), and \emph{loss granularity} (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.