A Survey of On-Policy Distillation for Large Language Models

作者: Mingyang Song, Mao Zheng

分类: cs.LG, cs.CL

发布日期: 2026-04-01

💡 一句话要点

针对大语言模型的On-Policy蒸馏方法综述，解决暴露偏差问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: On-Policy蒸馏 知识蒸馏 大语言模型 暴露偏差 模仿学习

📋 核心要点

现有离策略知识蒸馏方法存在暴露偏差，导致学生模型在推理时误差累积。
On-Policy蒸馏(OPD)让学生模型生成轨迹并接收教师反馈，缓解训练-测试不匹配。
该综述构建统一的f-散度框架，并从反馈信号、教师访问和损失粒度三个维度分析OPD方法。

📝 摘要（中文）

知识蒸馏已成为将前沿大语言模型(LLMs)的推理能力和领域知识迁移到更小、可部署的学生模型的关键机制。然而，目前的主流范式仍然是离策略(off-policy)的：学生模型在教师模型生成的静态数据上进行训练，在学习过程中从未遇到过自己的错误。这种训练-测试不匹配，即暴露偏差(exposure bias)的一个实例，会导致预测误差在推理时自回归地累积。On-Policy蒸馏(OPD)通过让学生模型生成自己的轨迹，并接收教师模型对这些自我生成输出的反馈来解决这个问题，从而将蒸馏建立在交互式模仿学习的理论基础上。尽管OPD的研究迅速发展，涵盖了散度最小化、奖励引导学习和自博弈等多个方面，但文献仍然分散，缺乏统一的处理。本综述提供了第一个针对LLMs的OPD的全面概述。我们引入了一个基于on-policy样本的统一$f$-散度框架，并沿着三个正交维度组织了研究领域：反馈信号（基于logits、基于结果或自博弈）、教师访问（白盒、黑盒或无教师）和损失粒度（token级别、序列级别或混合）。我们系统地分析了代表性方法，考察了工业部署，并确定了开放性问题，包括蒸馏缩放定律、不确定性感知反馈和agent级别的蒸馏。

🔬 方法详解

问题定义：现有的大语言模型知识蒸馏方法，特别是离策略蒸馏，主要依赖于教师模型预先生成的数据集进行训练。这种方式忽略了学生模型自身的生成能力和可能产生的错误，导致训练和测试环境存在差异，即“暴露偏差”。学生模型在实际应用中会遇到训练数据中没有出现的情况，从而导致误差累积，影响性能。

核心思路：On-Policy蒸馏的核心思想是让学生模型参与到训练循环中，生成自己的输出，并根据教师模型的反馈进行学习。这样可以使学生模型更好地适应自身的生成分布，减少训练和测试之间的差异，从而缓解暴露偏差。这种方法借鉴了强化学习和模仿学习的思想，将知识蒸馏过程视为一个交互式的学习过程。

技术框架：On-Policy蒸馏的整体框架通常包括以下几个主要模块：1) 学生模型：负责生成文本序列。2) 教师模型：提供反馈信号，指导学生模型的学习。3) 采样策略：决定如何生成学生模型的输出，例如，可以使用贪婪解码或采样方法。4) 反馈机制：定义教师模型如何评估学生模型的输出，并提供相应的反馈信号。5) 损失函数：用于衡量学生模型的输出与教师模型的目标之间的差异，并指导学生模型的参数更新。

关键创新：On-Policy蒸馏的关键创新在于引入了学生模型与环境（教师模型）的交互，使得学生模型可以在自身的生成分布上进行学习，从而更好地适应实际应用场景。与离策略蒸馏相比，On-Policy蒸馏能够更有效地缓解暴露偏差，提高学生模型的性能。此外，不同的On-Policy蒸馏方法在反馈信号的设计、教师模型的访问方式以及损失函数的选择上存在差异，这些差异也构成了On-Policy蒸馏领域的研究热点。

关键设计：On-Policy蒸馏的关键设计包括：1) 反馈信号：可以选择基于logits的反馈、基于结果的反馈或自博弈的反馈。2) 教师访问：可以选择白盒访问、黑盒访问或无教师访问。3) 损失粒度：可以选择token级别、序列级别或混合级别的损失函数。此外，采样策略的选择、学习率的调整以及正则化方法的应用也会影响On-Policy蒸馏的性能。

📊 实验亮点

该综述系统性地分析了On-Policy蒸馏的代表性方法，并从反馈信号、教师访问和损失粒度三个维度进行了分类。此外，文章还探讨了On-Policy蒸馏在工业界的部署情况，并指出了未来研究方向，例如蒸馏缩放定律、不确定性感知反馈和agent级别的蒸馏。这些分析为研究人员和工程师提供了宝贵的参考。

🎯 应用场景

On-Policy蒸馏技术可广泛应用于各种需要部署小型化、低延迟大语言模型的场景，例如移动设备上的智能助手、边缘计算环境下的实时翻译、以及资源受限的嵌入式系统中的自然语言处理任务。通过将大型预训练模型的知识迁移到小型模型，可以实现性能与效率的平衡，加速大语言模型在实际应用中的落地。

📄 摘要（原文）

Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains \textit{off-policy}: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of \textit{exposure bias}, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified $f$-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: \emph{feedback signal} (logit-based, outcome-based, or self-play), \emph{teacher access} (white-box, black-box, or teacher-free), and \emph{loss granularity} (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.

A Survey of On-Policy Distillation for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理