CRISP: Compressed Reasoning via Iterative Self-Policy Distillation

作者: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

分类: cs.LG

发布日期: 2026-04-06

💡 一句话要点

CRISP：通过迭代自策略蒸馏压缩推理过程，提升模型效率与精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自蒸馏 模型压缩 推理加速 大语言模型 数学推理 智能体规划 知识蒸馏

📋 核心要点

现有推理模型输出冗余信息，效率低下，CRISP旨在解决这一问题。
CRISP通过自蒸馏，让模型学习在“简洁”指令下生成更精炼的推理过程。
实验表明，CRISP在数学推理和智能体规划任务中显著减少token使用，并提升模型精度。

📝 摘要（中文）

本文提出CRISP（通过迭代自策略蒸馏压缩推理）方法，旨在训练模型以更简洁的方式进行推理，通过将模型自身的简洁行为提炼回自身来实现。该方法的核心思想是：以“简洁”指令为条件，获得教师模型的logits，并最小化学生模型自身rollout上的token级反向KL散度。该方法无需ground-truth答案、token预算或难度估计，仅通过自蒸馏即可实现。CRISP能够自动压缩简单问题，同时保留解决难题所需的推理性。在Qwen3-8B和Qwen3-14B上，MATH-500数据集的token使用量减少57-59%，准确率绝对提升9-16个百分点。在AIME 2024上，14B模型在压缩41% token的情况下，准确率提升10个百分点。消融实验表明，定性的简洁指令优于显式的token目标，并且周期性的教师模型刷新产生广泛的稳定状态。该方法可推广到不同的模型系列，DeepSeek-R1-Distill-Llama-8B的准确率提高了5个百分点，token压缩率达到17-32%。该方法还可以迁移到多步骤智能体规划（DeepPlanning）中，在保持规划质量的同时，token使用量减少42-51%。

🔬 方法详解

问题定义：现有的大语言模型在进行推理时，会产生大量的冗余信息，导致计算资源的浪费和推理效率的降低。现有的方法通常需要人工标注的答案或者预先设定的token预算，限制了其应用范围和灵活性。CRISP旨在解决如何在不需要额外监督信息的情况下，压缩模型的推理过程，提高推理效率。

核心思路：CRISP的核心思路是通过自蒸馏的方式，让模型学习自身的简洁推理行为。具体来说，模型首先在“简洁”指令的引导下生成教师logits，然后通过最小化学生模型自身rollout上的token级反向KL散度，让学生模型学习教师模型的简洁推理风格。这种自蒸馏的方式可以有效地压缩模型的推理过程，同时保留解决难题所需的推理性。

技术框架：CRISP的整体框架非常简洁。首先，使用一个预训练的大语言模型作为学生模型。然后，在训练过程中，使用相同的模型，但以“be concise”指令作为条件，生成教师logits。最后，通过最小化学生模型自身rollout上的token级反向KL散度，来更新学生模型的参数。整个过程只需要一个模型，不需要额外的监督信息。

关键创新：CRISP最重要的创新点在于其自蒸馏的方式。与传统的蒸馏方法不同，CRISP不需要额外的教师模型或者人工标注的答案，而是通过让模型学习自身的简洁推理行为来实现压缩。这种自蒸馏的方式可以有效地提高模型的推理效率，同时保留解决难题所需的推理性。

关键设计：CRISP的关键设计包括：1) 使用“be concise”指令来引导教师模型生成简洁的logits；2) 使用token级反向KL散度作为损失函数，来衡量学生模型和教师模型之间的差异；3) 周期性地刷新教师模型，以保证教师模型的质量。此外，CRISP没有使用任何token预算或者难度估计器，使得其更加简单和易于实现。

🖼️ 关键图片

📊 实验亮点

CRISP在MATH-500数据集上，使用Qwen3-8B和Qwen3-14B模型，实现了57-59%的token减少，同时准确率绝对提升9-16个百分点。在AIME 2024数据集上，14B模型在压缩41% token的情况下，准确率提升10个百分点。此外，CRISP还成功应用于DeepPlanning，在保持规划质量的同时，token使用量减少42-51%。

🎯 应用场景

CRISP具有广泛的应用前景，可应用于各种需要高效推理的场景，例如：移动设备上的模型部署、资源受限环境下的推理服务、以及需要快速响应的实时应用。通过压缩模型大小和推理时间，CRISP可以降低计算成本，提高用户体验，并促进大语言模型在更多领域的应用。

📄 摘要（原文）

Reasoning models think out loud, but much of what they say is noise. We introduce CRISP (Compressed Reasoning via Iterative Self-Policy Distillation), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a ''be concise'' instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: CRISP automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57--59% token reduction on MATH-500 while improving accuracy by 9--16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. Ablations show that qualitative conciseness instructions outperform explicit token targets, and periodic teacher refreshes yield a broad stable regime. The method generalizes across model families -- DeepSeek-R1-Distill-Llama-8B improves accuracy by up to 5 points with 17--32% compression -- and transfers beyond math to multi-step agentic planning (DeepPlanning), reducing token usage by 42--51% while preserving planning quality. Code is available atthis https URL.

CRISP: Compressed Reasoning via Iterative Self-Policy Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理