On-Policy Self-Distillation for Reasoning Compression

📄 arXiv: 2603.05433v1 📥 PDF

作者: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

分类: cs.LG

发布日期: 2026-03-05


💡 一句话要点

提出OPSDC,通过自蒸馏压缩推理模型,提升精度并减少token使用。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 推理压缩 自蒸馏 大语言模型 知识提炼 模型优化

📋 核心要点

  1. 现有推理模型输出冗余信息,导致计算成本高昂且易出错,OPSDC旨在解决这一问题。
  2. OPSDC通过让模型学习自身的简洁推理过程,实现自我提炼,从而压缩推理过程。
  3. 实验表明,OPSDC在压缩token的同时,显著提升了模型在数学问题上的推理精度。

📝 摘要(中文)

本文提出了一种名为OPSDC(On-Policy Self-Distillation for Reasoning Compression)的方法,旨在通过将模型自身的简洁推理行为提炼回自身,来训练模型进行更简洁的推理。该方法的核心思想是:以“简洁”指令为条件,让同一模型生成教师logits,并最小化学生模型自身rollout上的token反向KL散度。该方法无需ground-truth答案、token预算或难度估计器,仅通过自蒸馏即可实现。OPSDC能够自动压缩简单问题,同时保留解决难题所需的推理性。在Qwen3-8B和Qwen3-14B上,MATH-500数据集的token减少了57-59%,准确率绝对提升了9-16个百分点。在AIME 2024上,14B模型在压缩41% token的情况下,获得了10个点的提升。研究表明,推理模型产生的大部分内容不仅是冗余的,而且是有害的,每个不必要的token都会加剧错误。

🔬 方法详解

问题定义:现有的大语言模型在进行推理时,会产生大量的冗余信息,这些冗余信息不仅增加了计算成本,而且会引入噪声,导致推理错误。因此,如何压缩推理过程,减少token使用,同时保持甚至提升推理精度,是一个重要的研究问题。

核心思路:OPSDC的核心思路是利用自蒸馏,让模型学习自身的简洁推理过程。具体来说,就是让模型在“简洁”指令的引导下生成教师logits,然后让学生模型学习这些logits,从而使学生模型也能够生成简洁的推理过程。这种方法的关键在于,模型自身已经具备了解决问题的能力,只需要学习如何更简洁地表达推理过程。

技术框架:OPSDC的整体框架非常简单,主要包括以下几个步骤:1. 使用带有“简洁”指令的模型生成教师logits。2. 使用学生模型进行推理,并计算学生模型输出与教师logits之间的反向KL散度。3. 使用反向KL散度作为损失函数,更新学生模型的参数。整个过程是一个on-policy的自蒸馏过程,学生模型在自身的rollout上进行学习。

关键创新:OPSDC的关键创新在于其简洁性和有效性。它不需要ground-truth答案、token预算或难度估计器,只需要一个简单的自蒸馏过程,就可以实现推理压缩和精度提升。此外,OPSDC能够自动适应不同难度的问题,对简单问题进行更激进的压缩,同时保留解决难题所需的推理性。

关键设计:OPSDC的关键设计在于使用反向KL散度作为损失函数。反向KL散度可以鼓励学生模型的输出更接近教师模型的输出,从而使学生模型学习到教师模型的简洁推理过程。此外,使用“简洁”指令来引导教师模型生成简洁的logits也是一个重要的设计,它可以有效地减少教师模型输出中的冗余信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OPSDC在MATH-500数据集上取得了显著的成果,使用Qwen3-8B和Qwen3-14B模型,token减少了57-59%,准确率绝对提升了9-16个百分点。在AIME 2024数据集上,14B模型在压缩41% token的情况下,获得了10个点的提升。这些结果表明,OPSDC能够有效地压缩推理过程,并在压缩的同时提升模型的推理精度。

🎯 应用场景

OPSDC具有广泛的应用前景,可以应用于各种需要进行推理的场景,例如数学问题求解、代码生成、自然语言理解等。通过压缩推理过程,可以降低计算成本,提高推理效率,并提升模型的鲁棒性和可靠性。此外,OPSDC还可以用于训练更小、更高效的推理模型,使其能够在资源受限的设备上运行。

📄 摘要(原文)

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.