CRISP: Compressed Reasoning via Iterative Self-Policy Distillation

📄 arXiv: 2603.05433 📥 PDF

作者: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

分类: cs.LG

发布日期: 2026-04-06


💡 一句话要点

CRISP:通过迭代自策略蒸馏压缩推理过程,提升模型效率与精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自蒸馏 模型压缩 推理加速 大语言模型 数学推理 智能体规划 知识蒸馏

📋 核心要点

  1. 现有推理模型输出冗余信息,效率低下,CRISP旨在解决这一问题。
  2. CRISP通过自蒸馏,让模型学习在“简洁”指令下生成更精炼的推理过程。
  3. 实验表明,CRISP在数学推理和智能体规划任务中显著减少token使用,并提升模型精度。

📝 摘要(中文)

本文提出CRISP(通过迭代自策略蒸馏压缩推理)方法,旨在训练模型以更简洁的方式进行推理,通过将模型自身的简洁行为提炼回自身来实现。该方法的核心思想是:以“简洁”指令为条件,获得教师模型的logits,并最小化学生模型自身rollout上的token级反向KL散度。该方法无需ground-truth答案、token预算或难度估计,仅通过自蒸馏即可实现。CRISP能够自动压缩简单问题,同时保留解决难题所需的推理性。在Qwen3-8B和Qwen3-14B上,MATH-500数据集的token使用量减少57-59%,准确率绝对提升9-16个百分点。在AIME 2024上,14B模型在压缩41% token的情况下,准确率提升10个百分点。消融实验表明,定性的简洁指令优于显式的token目标,并且周期性的教师模型刷新产生广泛的稳定状态。该方法可推广到不同的模型系列,DeepSeek-R1-Distill-Llama-8B的准确率提高了5个百分点,token压缩率达到17-32%。该方法还可以迁移到多步骤智能体规划(DeepPlanning)中,在保持规划质量的同时,token使用量减少42-51%。

🔬 方法详解

问题定义:现有的大语言模型在进行推理时,会产生大量的冗余信息,导致计算资源的浪费和推理效率的降低。现有的方法通常需要人工标注的答案或者预先设定的token预算,限制了其应用范围和灵活性。CRISP旨在解决如何在不需要额外监督信息的情况下,压缩模型的推理过程,提高推理效率。

核心思路:CRISP的核心思路是通过自蒸馏的方式,让模型学习自身的简洁推理行为。具体来说,模型首先在“简洁”指令的引导下生成教师logits,然后通过最小化学生模型自身rollout上的token级反向KL散度,让学生模型学习教师模型的简洁推理风格。这种自蒸馏的方式可以有效地压缩模型的推理过程,同时保留解决难题所需的推理性。

技术框架:CRISP的整体框架非常简洁。首先,使用一个预训练的大语言模型作为学生模型。然后,在训练过程中,使用相同的模型,但以“be concise”指令作为条件,生成教师logits。最后,通过最小化学生模型自身rollout上的token级反向KL散度,来更新学生模型的参数。整个过程只需要一个模型,不需要额外的监督信息。

关键创新:CRISP最重要的创新点在于其自蒸馏的方式。与传统的蒸馏方法不同,CRISP不需要额外的教师模型或者人工标注的答案,而是通过让模型学习自身的简洁推理行为来实现压缩。这种自蒸馏的方式可以有效地提高模型的推理效率,同时保留解决难题所需的推理性。

关键设计:CRISP的关键设计包括:1) 使用“be concise”指令来引导教师模型生成简洁的logits;2) 使用token级反向KL散度作为损失函数,来衡量学生模型和教师模型之间的差异;3) 周期性地刷新教师模型,以保证教师模型的质量。此外,CRISP没有使用任何token预算或者难度估计器,使得其更加简单和易于实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRISP在MATH-500数据集上,使用Qwen3-8B和Qwen3-14B模型,实现了57-59%的token减少,同时准确率绝对提升9-16个百分点。在AIME 2024数据集上,14B模型在压缩41% token的情况下,准确率提升10个百分点。此外,CRISP还成功应用于DeepPlanning,在保持规划质量的同时,token使用量减少42-51%。

🎯 应用场景

CRISP具有广泛的应用前景,可应用于各种需要高效推理的场景,例如:移动设备上的模型部署、资源受限环境下的推理服务、以及需要快速响应的实时应用。通过压缩模型大小和推理时间,CRISP可以降低计算成本,提高用户体验,并促进大语言模型在更多领域的应用。

📄 摘要(原文)

Reasoning models think out loud, but much of what they say is noise. We introduce CRISP (Compressed Reasoning via Iterative Self-Policy Distillation), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a ''be concise'' instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: CRISP automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57--59% token reduction on MATH-500 while improving accuracy by 9--16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. Ablations show that qualitative conciseness instructions outperform explicit token targets, and periodic teacher refreshes yield a broad stable regime. The method generalizes across model families -- DeepSeek-R1-Distill-Llama-8B improves accuracy by up to 5 points with 17--32% compression -- and transfers beyond math to multi-step agentic planning (DeepPlanning), reducing token usage by 42--51% while preserving planning quality. Code is available atthis https URL.