The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models

📄 arXiv: 2510.02230v1 📥 PDF

作者: Phuc Minh Nguyen, Chinh D. La, Duy M. H. Nguyen, Nitesh V. Chawla, Binh T. Nguyen, Khoa D. Doan

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-10-02

备注: 23 pages, 15 figures

🔗 代码/项目: GITHUB


💡 一句话要点

揭示RLVR约束语言模型推理边界的悖论,并提出数据策展算法提升性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 数据策展 负干扰 赢者通吃 推理边界 数学推理

📋 核心要点

  1. 现有RLVR方法在提升LLM推理能力时存在推理边界收缩的挑战,导致模型泛化能力受限。
  2. 论文提出通过分析RLVR学习动态,揭示负干扰和赢者通吃现象,并设计数据策展算法解决。
  3. 实验表明,所提数据策展算法能够有效提升Pass@$k$性能,验证了其在解决推理边界收缩问题上的有效性。

📝 摘要(中文)

本文研究了使用可验证奖励的强化学习(RLVR)在提升大型语言模型(LLM)推理能力时出现的推理边界收缩问题。通过分析RLVR的学习动态,揭示了导致该问题的两个关键现象。首先,发现了RLVR中的负干扰,即学习解决某些训练问题会降低其他问题正确解的可能性,导致Pass@$k$性能下降。其次,揭示了赢者通吃现象:RLVR不成比例地强化基础模型下高概率的正确解问题,同时抑制其他初始概率较低的问题。通过在多个数学推理基准上的理论和实证分析,表明这种效应源于标准RL目标中固有的on-policy采样,导致模型收敛到狭窄的解决方案策略。基于这些见解,提出了一种简单而有效的数据策展算法,将RLVR学习集中在低概率问题上,从而显著提高了Pass@$k$性能。

🔬 方法详解

问题定义:现有基于强化学习的语言模型推理能力提升方法,特别是使用可验证奖励的强化学习(RLVR),虽然在某些方面取得了进展,但存在一个悖论:它们可能会缩小模型的推理边界,即模型只能解决特定类型的问题,而对其他问题的解决能力下降。现有方法未能充分考虑不同问题之间的相互影响,以及强化学习的采样偏差问题。

核心思路:论文的核心思路是深入分析RLVR的学习动态,揭示导致推理边界收缩的根本原因。通过理论分析和实验验证,发现了负干扰和赢者通吃两种现象。基于这些发现,提出一种数据策展算法,有选择性地关注那些在初始阶段表现不佳的问题,从而平衡模型的学习过程,扩大推理边界。

技术框架:整体框架包括三个主要部分:1) 使用RLVR训练LLM,2) 分析RLVR的学习动态,揭示负干扰和赢者通吃现象,3) 设计并应用数据策展算法,重新分配训练样本的权重,使模型更多地关注低概率问题。数据策展算法的具体流程是:首先评估每个问题在基础模型下的表现(例如,Pass@$k$),然后根据表现对问题进行排序,最后增加表现较差的问题在训练集中的权重。

关键创新:论文的关键创新在于:1) 首次揭示了RLVR在LLM推理能力提升中存在的推理边界收缩悖论。2) 深入分析了导致该悖论的负干扰和赢者通吃现象。3) 提出了一种简单有效的数据策展算法,能够显著提升模型的泛化能力。与现有方法相比,该方法更加关注问题的多样性和模型的学习平衡。

关键设计:数据策展算法的关键设计在于如何选择需要重点关注的低概率问题。论文采用了一种基于Pass@$k$的简单策略:计算每个问题在基础模型下的Pass@$k$值,然后选择Pass@$k$值较低的问题,并在训练过程中增加这些问题的权重。具体的权重调整策略可以根据实际情况进行调整,例如,可以使用一个简单的线性函数,将Pass@$k$值映射到权重值。

📊 实验亮点

实验结果表明,所提出的数据策展算法能够显著提升LLM在数学推理基准上的Pass@$k$性能。例如,在某些基准上,Pass@$k$值提升了超过10个百分点。此外,实验还验证了负干扰和赢者通吃现象的存在,为理解RLVR的学习动态提供了重要的 insights。

🎯 应用场景

该研究成果可应用于提升各种LLM的推理能力,尤其是在数学、逻辑等需要复杂推理的领域。通过解决推理边界收缩问题,可以提高LLM在实际应用中的泛化能力和鲁棒性,例如在智能客服、自动编程、科学研究等领域。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a key method for improving Large Language Models' reasoning capabilities, yet recent evidence suggests it may paradoxically shrink the reasoning boundary rather than expand it. This paper investigates the shrinkage issue of RLVR by analyzing its learning dynamics and reveals two critical phenomena that explain this failure. First, we expose negative interference in RLVR, where learning to solve certain training problems actively reduces the likelihood of correct solutions for others, leading to the decline of Pass@$k$ performance, or the probability of generating a correct solution within $k$ attempts. Second, we uncover the winner-take-all phenomenon: RLVR disproportionately reinforces problems with high likelihood, correct solutions, under the base model, while suppressing other initially low-likelihood ones. Through extensive theoretical and empirical analysis on multiple mathematical reasoning benchmarks, we show that this effect arises from the inherent on-policy sampling in standard RL objectives, causing the model to converge toward narrow solution strategies. Based on these insights, we propose a simple yet effective data curation algorithm that focuses RLVR learning on low-likelihood problems, achieving notable improvement in Pass@$k$ performance. Our code is available at https://github.com/mail-research/SELF-llm-interference.