On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

📄 arXiv: 2604.01702v1 📥 PDF

作者: Zhaoyi Li, Xiangyu Xi, Zhengyu Chen, Wei Wang, Gangwei Jiang, Ranran Shen, Linqi Song, Ying Wei, Defu Lian

分类: cs.CL

发布日期: 2026-04-02

备注: Under Review


💡 一句话要点

揭示CoT微调中推理模式对泛化性能的影响,并提出分支过滤方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 监督微调 泛化性能 推理模式 分支过滤

📋 核心要点

  1. 现有CoT微调方法缺乏对不同推理模式的深入理解,导致训练损失与泛化性能不一致。
  2. 通过分析不同模型生成的CoT轨迹,发现推理模式(收敛/发散)是影响泛化能力的关键因素。
  3. 提出一种过滤频繁分支轨迹的简单有效方法,显著提升了SFT在推理任务上的泛化性能。

📝 摘要(中文)

在大规模推理模型的构建中,基于长链式思考(CoT)轨迹的监督式微调(SFT)至关重要。本文研究了来自不同来源的CoT轨迹如何影响模型的泛化性能。通过对比两个竞争模型 exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}生成的CoT轨迹(问题集相同),发现了一个悖论:更低的训练损失并不意味着更好的泛化能力。 exttt{DeepSeek-R1-0528}数据上的SFT实现了显著更低的训练损失,但在推理基准测试中的泛化性能却明显差于在 exttt{gpt-oss-120b}上训练的模型。通过token级别SFT损失和step级别推理行为的多方面分析,揭示了推理模式的差异。 exttt{gpt-oss-120b}表现出高度收敛和演绎的轨迹,而 exttt{DeepSeek-R1-0528}倾向于发散和分支繁重的探索模式。因此,使用 exttt{DeepSeek-R1}数据训练的模型继承了低效的探索行为,经常陷入冗余的探索分支中,阻碍了它们获得正确的解决方案。基于此,提出了一种简单的过滤频繁分支轨迹的方法来提高SFT的泛化能力。实验表明,在筛选后的 exttt{DeepSeek-R1-0528}子集上训练,推理性能在AIME25上提高了5.1%,在BeyondAIME上提高了5.5%,在五个基准测试上平均提高了3.6%。

🔬 方法详解

问题定义:论文旨在解决长链式思考(CoT)监督微调(SFT)中,不同来源的CoT轨迹对模型泛化性能影响的问题。现有方法主要关注降低训练损失,但忽略了CoT轨迹的推理模式差异,导致模型在训练集上表现良好,但在未见过的推理任务上泛化能力较差。

核心思路:论文的核心思路是分析不同CoT轨迹的推理模式,并发现发散和分支繁重的探索模式会导致模型陷入冗余的探索分支,从而影响泛化能力。因此,通过过滤掉这些低效的探索轨迹,可以提高模型的泛化性能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用两个不同的模型( exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b})生成CoT轨迹;2) 在这些CoT轨迹上进行SFT;3) 分析token级别的SFT损失和step级别的推理行为;4) 提出并实施过滤频繁分支轨迹的方法;5) 在多个推理基准测试上评估模型的泛化性能。

关键创新:论文最重要的技术创新点在于揭示了CoT轨迹的推理模式对SFT泛化性能的关键影响。以往的研究主要关注数据量和训练技巧,而忽略了CoT轨迹本身的质量和推理逻辑。通过分析推理模式,论文提出了一种新的视角来理解和改进SFT。

关键设计:论文的关键设计在于过滤频繁分支轨迹的方法。具体来说,论文定义了“分支”为CoT轨迹中出现多个可能的下一步推理方向的情况。然后,通过设定一个阈值,过滤掉那些在一定步数内出现超过阈值次数的分支的轨迹。这个阈值的选择需要根据具体任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过过滤频繁分支轨迹,在筛选后的 exttt{DeepSeek-R1-0528}子集上训练的模型,在AIME25上推理性能提高了5.1%,在BeyondAIME上提高了5.5%,在五个基准测试上平均提高了3.6%。这表明,即使使用相同的数据集,通过优化CoT轨迹的质量,也可以显著提高模型的泛化性能。

🎯 应用场景

该研究成果可应用于提升大型语言模型在复杂推理任务中的表现,例如数学问题求解、逻辑推理和知识图谱推理等。通过优化CoT轨迹的质量和推理模式,可以提高模型在实际应用中的可靠性和准确性,例如智能客服、自动问答系统和决策支持系统。

📄 摘要(原文)

Supervised Fine-Tuning (SFT) on long Chain-of-Thought (CoT) trajectories has become a pivotal phase in building large reasoning models. However, how CoT trajectories from different sources influence the generalization performance of models remains an open question. In this paper, we conduct a comparative study using two sources of verified CoT trajectories generated by two competing models, \texttt{DeepSeek-R1-0528} and \texttt{gpt-oss-120b}, with their problem sets controlled to be identical. Despite their comparable performance, we uncover a striking paradox: lower training loss does not translate to better generalization. SFT on \texttt{DeepSeek-R1-0528} data achieves remarkably lower training loss, yet exhibits significantly worse generalization performance on reasoning benchmarks compared to those trained on \texttt{gpt-oss-120b}. To understand this paradox, we perform a multi-faceted analysis probing token-level SFT loss and step-level reasoning behaviors. Our analysis reveals a difference in reasoning patterns. \texttt{gpt-oss-120b} exhibits highly convergent and deductive trajectories, whereas \texttt{DeepSeek-R1-0528} favors a divergent and branch-heavy exploration pattern. Consequently, models trained with \texttt{DeepSeek-R1} data inherit inefficient exploration behaviors, often getting trapped in redundant exploratory branches that hinder them from reaching correct solutions. Building upon this insight, we propose a simple yet effective remedy of filtering out frequently branching trajectories to improve the generalization of SFT. Experiments show that training on selected \texttt{DeepSeek-R1-0528} subsets surprisingly improves reasoning performance by up to 5.1% on AIME25, 5.5% on BeyondAIME, and on average 3.6% on five benchmarks.