On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

作者: Zhaoyi Li, Xiangyu Xi, Zhengyu Chen, Wei Wang, Gangwei Jiang, Ranran Shen, Linqi Song, Ying Wei, Defu Lian

分类: cs.CL

发布日期: 2026-04-02

备注: Under Review

💡 一句话要点

揭示CoT微调中推理模式对泛化性能的影响，并提出分支过滤方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 链式思考 监督微调 泛化性能 推理模式 分支过滤

📋 核心要点

现有CoT微调方法缺乏对不同推理模式的深入理解，导致训练损失与泛化性能不一致。
通过分析不同模型生成的CoT轨迹，发现推理模式（收敛/发散）是影响泛化能力的关键因素。
提出一种过滤频繁分支轨迹的简单有效方法，显著提升了SFT在推理任务上的泛化性能。

📝 摘要（中文）

在大规模推理模型的构建中，基于长链式思考(CoT)轨迹的监督式微调(SFT)至关重要。本文研究了来自不同来源的CoT轨迹如何影响模型的泛化性能。通过对比两个竞争模型 exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}生成的CoT轨迹（问题集相同），发现了一个悖论：更低的训练损失并不意味着更好的泛化能力。 exttt{DeepSeek-R1-0528}数据上的SFT实现了显著更低的训练损失，但在推理基准测试中的泛化性能却明显差于在 exttt{gpt-oss-120b}上训练的模型。通过token级别SFT损失和step级别推理行为的多方面分析，揭示了推理模式的差异。 exttt{gpt-oss-120b}表现出高度收敛和演绎的轨迹，而 exttt{DeepSeek-R1-0528}倾向于发散和分支繁重的探索模式。因此，使用 exttt{DeepSeek-R1}数据训练的模型继承了低效的探索行为，经常陷入冗余的探索分支中，阻碍了它们获得正确的解决方案。基于此，提出了一种简单的过滤频繁分支轨迹的方法来提高SFT的泛化能力。实验表明，在筛选后的 exttt{DeepSeek-R1-0528}子集上训练，推理性能在AIME25上提高了5.1%，在BeyondAIME上提高了5.5%，在五个基准测试上平均提高了3.6%。

🔬 方法详解

问题定义：论文旨在解决长链式思考（CoT）监督微调（SFT）中，不同来源的CoT轨迹对模型泛化性能影响的问题。现有方法主要关注降低训练损失，但忽略了CoT轨迹的推理模式差异，导致模型在训练集上表现良好，但在未见过的推理任务上泛化能力较差。

核心思路：论文的核心思路是分析不同CoT轨迹的推理模式，并发现发散和分支繁重的探索模式会导致模型陷入冗余的探索分支，从而影响泛化能力。因此，通过过滤掉这些低效的探索轨迹，可以提高模型的泛化性能。

技术框架：论文的技术框架主要包括以下几个步骤：1) 使用两个不同的模型（ exttt{DeepSeek-R1-0528}和 exttt{gpt-oss-120b}）生成CoT轨迹；2) 在这些CoT轨迹上进行SFT；3) 分析token级别的SFT损失和step级别的推理行为；4) 提出并实施过滤频繁分支轨迹的方法；5) 在多个推理基准测试上评估模型的泛化性能。

关键创新：论文最重要的技术创新点在于揭示了CoT轨迹的推理模式对SFT泛化性能的关键影响。以往的研究主要关注数据量和训练技巧，而忽略了CoT轨迹本身的质量和推理逻辑。通过分析推理模式，论文提出了一种新的视角来理解和改进SFT。

关键设计：论文的关键设计在于过滤频繁分支轨迹的方法。具体来说，论文定义了“分支”为CoT轨迹中出现多个可能的下一步推理方向的情况。然后，通过设定一个阈值，过滤掉那些在一定步数内出现超过阈值次数的分支的轨迹。这个阈值的选择需要根据具体任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过过滤频繁分支轨迹，在筛选后的 exttt{DeepSeek-R1-0528}子集上训练的模型，在AIME25上推理性能提高了5.1%，在BeyondAIME上提高了5.5%，在五个基准测试上平均提高了3.6%。这表明，即使使用相同的数据集，通过优化CoT轨迹的质量，也可以显著提高模型的泛化性能。

🎯 应用场景

该研究成果可应用于提升大型语言模型在复杂推理任务中的表现，例如数学问题求解、逻辑推理和知识图谱推理等。通过优化CoT轨迹的质量和推理模式，可以提高模型在实际应用中的可靠性和准确性，例如智能客服、自动问答系统和决策支持系统。

📄 摘要（原文）

Supervised Fine-Tuning (SFT) on long Chain-of-Thought (CoT) trajectories has become a pivotal phase in building large reasoning models. However, how CoT trajectories from different sources influence the generalization performance of models remains an open question. In this paper, we conduct a comparative study using two sources of verified CoT trajectories generated by two competing models, \texttt{DeepSeek-R1-0528} and \texttt{gpt-oss-120b}, with their problem sets controlled to be identical. Despite their comparable performance, we uncover a striking paradox: lower training loss does not translate to better generalization. SFT on \texttt{DeepSeek-R1-0528} data achieves remarkably lower training loss, yet exhibits significantly worse generalization performance on reasoning benchmarks compared to those trained on \texttt{gpt-oss-120b}. To understand this paradox, we perform a multi-faceted analysis probing token-level SFT loss and step-level reasoning behaviors. Our analysis reveals a difference in reasoning patterns. \texttt{gpt-oss-120b} exhibits highly convergent and deductive trajectories, whereas \texttt{DeepSeek-R1-0528} favors a divergent and branch-heavy exploration pattern. Consequently, models trained with \texttt{DeepSeek-R1} data inherit inefficient exploration behaviors, often getting trapped in redundant exploratory branches that hinder them from reaching correct solutions. Building upon this insight, we propose a simple yet effective remedy of filtering out frequently branching trajectories to improve the generalization of SFT. Experiments show that training on selected \texttt{DeepSeek-R1-0528} subsets surprisingly improves reasoning performance by up to 5.1% on AIME25, 5.5% on BeyondAIME, and on average 3.6% on five benchmarks.

On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理