On-Policy Self-Distillation for Reasoning Compression

作者: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

分类: cs.LG

发布日期: 2026-03-05

💡 一句话要点

提出OPSDC，通过自蒸馏压缩推理模型，提升精度并减少token使用。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 推理压缩 自蒸馏 大语言模型 知识提炼 模型优化

📋 核心要点

现有推理模型输出冗余信息，导致计算成本高昂且易出错，OPSDC旨在解决这一问题。
OPSDC通过让模型学习自身的简洁推理过程，实现自我提炼，从而压缩推理过程。
实验表明，OPSDC在压缩token的同时，显著提升了模型在数学问题上的推理精度。

📝 摘要（中文）

本文提出了一种名为OPSDC（On-Policy Self-Distillation for Reasoning Compression）的方法，旨在通过将模型自身的简洁推理行为提炼回自身，来训练模型进行更简洁的推理。该方法的核心思想是：以“简洁”指令为条件，让同一模型生成教师logits，并最小化学生模型自身rollout上的token反向KL散度。该方法无需ground-truth答案、token预算或难度估计器，仅通过自蒸馏即可实现。OPSDC能够自动压缩简单问题，同时保留解决难题所需的推理性。在Qwen3-8B和Qwen3-14B上，MATH-500数据集的token减少了57-59%，准确率绝对提升了9-16个百分点。在AIME 2024上，14B模型在压缩41% token的情况下，获得了10个点的提升。研究表明，推理模型产生的大部分内容不仅是冗余的，而且是有害的，每个不必要的token都会加剧错误。

🔬 方法详解

问题定义：现有的大语言模型在进行推理时，会产生大量的冗余信息，这些冗余信息不仅增加了计算成本，而且会引入噪声，导致推理错误。因此，如何压缩推理过程，减少token使用，同时保持甚至提升推理精度，是一个重要的研究问题。

核心思路：OPSDC的核心思路是利用自蒸馏，让模型学习自身的简洁推理过程。具体来说，就是让模型在“简洁”指令的引导下生成教师logits，然后让学生模型学习这些logits，从而使学生模型也能够生成简洁的推理过程。这种方法的关键在于，模型自身已经具备了解决问题的能力，只需要学习如何更简洁地表达推理过程。

技术框架：OPSDC的整体框架非常简单，主要包括以下几个步骤：1. 使用带有“简洁”指令的模型生成教师logits。2. 使用学生模型进行推理，并计算学生模型输出与教师logits之间的反向KL散度。3. 使用反向KL散度作为损失函数，更新学生模型的参数。整个过程是一个on-policy的自蒸馏过程，学生模型在自身的rollout上进行学习。

关键创新：OPSDC的关键创新在于其简洁性和有效性。它不需要ground-truth答案、token预算或难度估计器，只需要一个简单的自蒸馏过程，就可以实现推理压缩和精度提升。此外，OPSDC能够自动适应不同难度的问题，对简单问题进行更激进的压缩，同时保留解决难题所需的推理性。

关键设计：OPSDC的关键设计在于使用反向KL散度作为损失函数。反向KL散度可以鼓励学生模型的输出更接近教师模型的输出，从而使学生模型学习到教师模型的简洁推理过程。此外，使用“简洁”指令来引导教师模型生成简洁的logits也是一个重要的设计，它可以有效地减少教师模型输出中的冗余信息。

🖼️ 关键图片

📊 实验亮点

OPSDC在MATH-500数据集上取得了显著的成果，使用Qwen3-8B和Qwen3-14B模型，token减少了57-59%，准确率绝对提升了9-16个百分点。在AIME 2024数据集上，14B模型在压缩41% token的情况下，获得了10个点的提升。这些结果表明，OPSDC能够有效地压缩推理过程，并在压缩的同时提升模型的推理精度。

🎯 应用场景

OPSDC具有广泛的应用前景，可以应用于各种需要进行推理的场景，例如数学问题求解、代码生成、自然语言理解等。通过压缩推理过程，可以降低计算成本，提高推理效率，并提升模型的鲁棒性和可靠性。此外，OPSDC还可以用于训练更小、更高效的推理模型，使其能够在资源受限的设备上运行。

📄 摘要（原文）

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.

On-Policy Self-Distillation for Reasoning Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理