Revisiting the Capacity Gap in Chain-of-Thought Distillation from a Practical Perspective

📄 arXiv: 2604.08880v1 📥 PDF

作者: Tokio Kajitsuka, Ukyo Honda, Sho Takase

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-10

备注: 19 pages, 6 figures


💡 一句话要点

重新审视CoT蒸馏中的能力差距,关注实际应用场景

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链蒸馏 能力差距 知识迁移 模型压缩 评估协议

📋 核心要点

  1. 现有CoT蒸馏研究中,教师-学生模型能力差距过大导致蒸馏效果不佳,但评估方法可能存在偏差。
  2. 论文提出更贴近实际的评估协议,关注蒸馏前后学生模型性能变化,而非仅关注蒸馏后性能。
  3. 实验表明,能力差距的影响并非始终显著,尤其当教师模型性能差异大时,为教师选择提供指导。

📝 摘要(中文)

思维链(CoT)蒸馏旨在将强大教师模型的推理能力迁移到较小的学生模型,但现有研究表明存在能力差距:当教师和学生的能力差异较大时,蒸馏可能会失败。本文从实际角度重新审视了能力差距,重新评估了常用的实验设置。值得注意的是,我们发现CoT蒸馏通常会降低性能,甚至低于学生模型在蒸馏前的基线水平,这个问题在仅报告蒸馏后比较时会被掩盖。因此,我们提出了一种更实际的评估协议,并发现能力差距的影响并非在所有任务和设置中都占主导地位,尤其是在候选教师模型的性能差异很大时。我们的结果为CoT蒸馏中教师-学生模型的选择提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决CoT蒸馏中,由于教师和学生模型能力差距过大导致的蒸馏效果不佳的问题。现有研究通常只关注蒸馏后的性能比较,忽略了蒸馏过程可能导致学生模型性能下降的情况,缺乏对蒸馏过程有效性的全面评估。

核心思路:论文的核心思路是重新审视CoT蒸馏的评估方法,提出一种更实际的评估协议,该协议不仅关注蒸馏后的性能,更关注蒸馏前后学生模型性能的变化。通过比较蒸馏后的性能与学生模型自身的预训练基线性能,可以更准确地评估蒸馏的有效性,从而更好地理解能力差距的影响。

技术框架:论文没有提出新的模型架构或训练算法,而是侧重于评估协议的改进。其核心在于对比不同教师模型对学生模型进行CoT蒸馏后的性能,并与学生模型自身的预训练基线性能进行比较。通过这种方式,可以更清晰地观察到蒸馏是否真正提升了学生模型的性能,以及能力差距对蒸馏效果的影响。

关键创新:论文的关键创新在于提出了更实际的CoT蒸馏评估协议。该协议通过比较蒸馏前后学生模型的性能变化,揭示了现有评估方法可能存在的偏差,并为理解能力差距的影响提供了新的视角。这种评估方法更贴近实际应用场景,可以帮助研究人员更好地选择合适的教师-学生模型组合。

关键设计:论文的关键设计在于评估指标的选择。除了传统的蒸馏后性能指标外,论文还引入了蒸馏前后性能变化的指标,例如性能提升幅度或性能下降幅度。通过综合考虑这些指标,可以更全面地评估CoT蒸馏的有效性。此外,论文还关注不同教师模型性能差异对蒸馏效果的影响,并分析了不同任务和数据集下的能力差距现象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,CoT蒸馏有时会降低学生模型的性能,使其低于预训练基线。通过提出的新评估协议,论文揭示了能力差距的影响并非始终显著,尤其是在教师模型性能差异较大时。这些发现为CoT蒸馏中教师-学生模型的选择提供了重要的实践指导。

🎯 应用场景

该研究成果可应用于自然语言处理领域,特别是需要将大型语言模型的推理能力迁移到小型模型上的场景,例如移动设备上的智能助手、资源受限环境下的文本生成等。通过更合理的评估方法,可以选择更合适的教师-学生模型组合,提高蒸馏效率和模型性能,降低部署成本。

📄 摘要(原文)

Chain-of-thought (CoT) distillation transfers reasoning behaviors from a strong teacher to a smaller student, but prior work reports a capacity gap: distillation may fail when the teacher-student capability mismatch is large. We revisit the capacity gap from a practical perspective by re-examining commonly used experimental settings. Notably, we find that CoT distillation often degrades performance compared to the student's pre-distillation baseline, an issue obscured when only post-distillation comparisons are reported. We therefore propose a more realistic evaluation protocol and find that the impact of capacity gap effects does not consistently dominate across tasks and settings, especially when candidate teachers differ substantially in performance. Our results offer practical guidance for selecting teacher-student pairs in CoT distillation.