Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models
作者: Wei Wu, Liyi Chen, Congxi Xiao, Tianfu Wang, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong
分类: cs.AI, cs.CL
发布日期: 2026-01-07
💡 一句话要点
提出动态离群点截断(DOT)方法,解决推理模型训练中的长度偏移问题,提升效率与性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理模型 长度偏移 动态离群点截断 强化学习 效率优化 KL正则化 动态采样
📋 核心要点
- 现有推理模型在简单问题上过度冗长,导致部署成本高昂,且显式长度惩罚易引入优化冲突。
- 提出动态离群点截断(DOT)方法,选择性抑制冗余token,解决训练过程中的长度偏移问题。
- 实验表明,DOT方法在降低推理token使用量的同时,提升了模型准确性,显著改进了效率-性能权衡。
📝 摘要(中文)
大型推理模型通过强化学习和可验证的奖励来增强,并通过扩展思维链实现了显著的性能提升。然而,这种模式带来了巨大的部署成本,因为模型在简单查询上经常表现出过度冗长的特性。现有的依赖于显式长度惩罚的有效推理方法通常会引入优化冲突,并且在很大程度上没有研究驱动过度思考的生成机制。本文发现了一种称为长度偏移的现象,即模型在训练过程中越来越多地在琐碎的输入上生成不必要的推理。为了解决这个问题,我们引入了动态离群点截断(DOT),这是一种训练时干预,有选择地抑制冗余token。该方法只针对完全正确的rollout组中响应长度的极端尾部,同时保留了复杂问题的长时程推理能力。为了补充这种干预并确保稳定的收敛,我们进一步结合了辅助KL正则化和预测动态采样。跨多个模型规模的实验结果表明,我们的方法显著地将效率-性能帕累托前沿向外推进。值得注意的是,在AIME-24上,与初始策略相比,我们的方法减少了78%的推理token使用量,同时提高了准确性,并超过了最先进的有效推理方法。
🔬 方法详解
问题定义:论文旨在解决大型推理模型在训练过程中出现的“长度偏移”问题。具体来说,模型在简单输入上会生成不必要的冗长推理,导致推理效率降低。现有的通过长度惩罚来解决这个问题的方法,容易引入优化冲突,并且没有深入研究导致过度思考的生成机制。
核心思路:论文的核心思路是识别并抑制训练过程中产生的冗余token,即“动态离群点截断”。作者观察到,只有在完全正确的rollout中,响应长度的极端尾部才包含冗余信息。因此,只针对这些尾部进行截断,可以避免影响模型在复杂问题上的长时程推理能力。
技术框架:DOT方法主要包含以下几个阶段:1) 使用强化学习训练推理模型;2) 在训练过程中,对每个rollout的响应长度进行统计;3) 识别完全正确的rollout组中响应长度的极端尾部(即离群点);4) 使用动态离群点截断策略,选择性地抑制这些离群点对应的token;5) 结合辅助KL正则化和预测动态采样,保证训练过程的稳定收敛。
关键创新:DOT方法的关键创新在于其动态性和选择性。与传统的长度惩罚方法不同,DOT方法不是对所有响应进行统一的惩罚,而是只针对完全正确的rollout组中响应长度的极端尾部进行截断。这种选择性的截断策略可以有效地抑制冗余token,同时保留模型在复杂问题上的推理能力。此外,DOT方法还结合了辅助KL正则化和预测动态采样,进一步提高了训练的稳定性和效率。
关键设计:DOT方法的关键设计包括:1) 动态离群点截断策略:使用统计方法(例如,基于百分位数的截断)来识别响应长度的极端尾部;2) 辅助KL正则化:使用KL散度来约束模型的输出分布,防止模型过度自信;3) 预测动态采样:根据模型的预测结果动态调整采样策略,提高训练效率。具体的参数设置需要根据不同的任务和模型进行调整。
📊 实验亮点
在AIME-24数据集上,与初始策略相比,DOT方法减少了78%的推理token使用量,同时提高了准确性。此外,该方法还超越了现有的最先进的有效推理方法,显著地将效率-性能帕累托前沿向外推进,证明了其在提升推理模型效率方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要高效推理的大型语言模型,例如问答系统、对话系统、代码生成等。通过减少推理过程中的token使用量,可以显著降低部署成本,提高响应速度,并提升用户体验。未来,该方法有望推广到其他类型的序列生成任务中,进一步提升模型的效率和性能。
📄 摘要(原文)
Large reasoning models enhanced by reinforcement learning with verifiable rewards have achieved significant performance gains by extending their chain-of-thought. However, this paradigm incurs substantial deployment costs as models often exhibit excessive verbosity on simple queries. Existing efficient reasoning methods relying on explicit length penalties often introduce optimization conflicts and leave the generative mechanisms driving overthinking largely unexamined. In this paper, we identify a phenomenon termed length shift where models increasingly generate unnecessary reasoning on trivial inputs during training. To address this, we introduce Dynamic Outlier Truncation (DOT), a training-time intervention that selectively suppresses redundant tokens. This method targets only the extreme tail of response lengths within fully correct rollout groups while preserving long-horizon reasoning capabilities for complex problems. To complement this intervention and ensure stable convergence, we further incorporate auxiliary KL regularization and predictive dynamic sampling. Experimental results across multiple model scales demonstrate that our approach significantly pushes the efficiency-performance Pareto frontier outward. Notably, on the AIME-24, our method reduces inference token usage by 78% while simultaneously increasing accuracy compared to the initial policy and surpassing state-of-the-art efficient reasoning methods.