Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models
作者: Bin Yu, Hang Yuan, Haotian Li, Xueyin Xu, Yuliang Wei, Bailing Wang, Weizhen Qi, Kai Chen
分类: cs.CL
发布日期: 2025-05-06 (更新: 2025-05-21)
备注: 12 pages, 5 figures
💡 一句话要点
提出长短链思维混合监督微调以解决模型过度思考问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长短链思维 监督微调 推理能力 模型优化 自然语言处理
📋 核心要点
- 现有的监督微调方法在推理过程中容易产生冗长和重复的推理链,导致模型的响应效率低下。
- 本文提出的长短链思维混合监督微调(LS-Mixture SFT)方法,通过结合长短推理数据集,旨在减少模型的冗余推理。
- 实验结果显示,LS-Mixture SFT方法在多个基准测试中平均提高了2.3%的准确率,同时响应长度减少了约47.61%。
📝 摘要(中文)
近年来,大型语言模型的进展表明,使用从大型推理模型(如DeepSeek R1)蒸馏的链思维(CoT)推理数据进行监督微调(SFT)可以有效地将推理能力转移到非推理模型。然而,采用这种方法微调的模型继承了教师模型的“过度思考”问题,在推理过程中产生冗长且重复的推理链。为了解决这一挑战,本文提出了长短链思维混合监督微调(LS-Mixture SFT),该方法结合了长CoT推理数据集和通过结构保留重写获得的短数据集。实验表明,使用LS-Mixture SFT方法训练的模型在多个基准测试中平均准确率提高了2.3%,同时模型响应长度显著减少了约47.61%。该研究为通过监督微调赋予非推理模型推理能力提供了一种方法,同时避免了从教师模型继承的固有过度思考问题,从而实现了高效推理。
🔬 方法详解
问题定义:本文要解决的问题是现有的监督微调方法在推理过程中产生冗长和重复的推理链,导致模型效率低下。现有方法在推理能力的转移上存在“过度思考”问题,影响了模型的实际应用效果。
核心思路:论文提出的LS-Mixture SFT方法通过结合长链和短链的推理数据集,旨在有效减少模型的冗余推理。长链数据提供了丰富的推理信息,而短链数据则通过结构保留重写来简化推理过程,从而提高模型的推理效率。
技术框架:该方法的整体架构包括数据集的构建、模型的微调和推理性能的评估。首先,构建长短链推理数据集;然后,利用这些数据集对模型进行监督微调;最后,通过多种基准测试评估模型的推理能力和响应效率。
关键创新:最重要的技术创新点在于将长链和短链推理数据结合使用,克服了传统方法中存在的过度思考问题。这种混合方法使得模型在保持推理能力的同时,显著提高了推理效率。
关键设计:在关键设计方面,论文详细描述了数据集的构建方法、损失函数的选择以及模型架构的调整。特别是在损失函数中,强调了对冗余推理的惩罚机制,以促进模型生成更简洁的推理链。
📊 实验亮点
实验结果表明,使用LS-Mixture SFT方法训练的模型在多个基准测试中平均准确率提高了2.3%,同时响应长度减少了约47.61%。这一显著的性能提升展示了该方法在推理效率和准确性上的优势。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能问答系统和对话生成等。通过提高模型的推理效率,LS-Mixture SFT方法可以在实际应用中显著提升用户体验,减少计算资源的消耗,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the "overthinking" problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning (LS-Mixture SFT), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3% across various benchmarks while substantially reducing model response length by approximately 47.61%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.