LLM Reasoning with Process Rewards for Outcome-Guided Steps

📄 arXiv: 2604.02341 📥 PDF

作者: Mohammad Rezaei, Jens Lehmann, Sahar Vahdati

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出PROGRS框架以优化数学推理中的过程奖励

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 过程奖励 强化学习 大型语言模型 结果条件中心化 多步骤推理 教育技术

📋 核心要点

  1. 现有方法主要优化最终结果的正确性,导致对长多步骤解决方案的反馈稀疏,难以指导中间推理错误。
  2. 本文提出PROGRS框架,通过将过程奖励视为相对偏好,保持结果正确性主导,解决了PRM评分与最终正确性不对齐的问题。
  3. 在MATH-500、AMC等基准测试中,PROGRS在Pass@1上持续超越仅优化结果的基线,并在更少的回合中实现更强的性能。

📝 摘要(中文)

在大型语言模型中,数学推理的进展得益于使用可验证奖励的强化学习,然而现有方法仅优化最终结果的正确性,导致对多步骤解决方案的反馈稀疏。为了解决这一问题,本文提出了过程奖励模型(PRMs),用于对中间步骤进行评分并提供更密集的监督。尽管PRM评分与最终正确性并不总是完美对齐,且可能奖励局部流畅但错误的推理,本文提出的PROGRS框架通过将过程奖励视为相对偏好而非绝对目标,保持了结果正确性的主导地位。通过引入结果条件中心化,PROGRS在多个数学基准测试中显著提高了性能,展示了过程奖励在数学推理中的安全有效应用。

🔬 方法详解

问题定义:本文旨在解决现有数学推理方法中,过程奖励模型(PRMs)与最终结果正确性不对齐的问题。现有方法仅关注最终答案,导致对中间步骤的反馈不足,影响推理质量。

核心思路:PROGRS框架通过将过程奖励视为相对偏好而非绝对目标,确保结果正确性主导,同时利用结果条件中心化消除系统性偏差,保留信息丰富的排名。

技术框架:PROGRS结合了一个冻结的分位数回归PRM和多尺度一致性评估器,整体架构包括过程奖励的评分、中心化处理和与Group Relative Policy Optimization (GRPO)的集成。

关键创新:最重要的创新在于结果条件中心化方法,该方法通过将不正确轨迹的PRM评分调整为零均值,消除了系统性偏差,同时保留了有效的评分排名。这一设计与现有方法的本质区别在于不再将过程奖励视为绝对目标。

关键设计:在参数设置上,采用冻结的分位数回归模型来生成PRM评分,损失函数设计为兼顾过程奖励和最终结果的优化,网络结构则通过多尺度一致性评估器增强了模型的推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个数学基准测试中,PROGRS框架在Pass@1指标上持续超越仅优化结果的基线,具体表现为在MATH-500、AMC等数据集上实现了显著的性能提升,且在更少的回合中达成更高的准确率。这表明结果条件中心化有效促进了过程奖励的安全和有效使用。

🎯 应用场景

该研究的潜在应用领域包括教育技术、智能辅导系统和自动化数学问题解决工具。通过优化数学推理过程中的奖励机制,PROGRS框架能够为学生提供更有效的学习反馈,提升学习效率。此外,该方法的思路也可扩展至其他需要多步骤推理的领域,如科学计算和逻辑推理。未来,随着模型的进一步优化,可能会在更广泛的应用场景中发挥重要作用。

📄 摘要(原文)

Mathematical reasoning in large language models has improved substantially with reinforcement learning using verifiable rewards, where final answers can be checked automatically and converted into reliable training signals. Most such pipelines optimize outcome correctness only, which yields sparse feedback for long, multi-step solutions and offers limited guidance on intermediate reasoning errors. Recent work therefore introduces process reward models (PRMs) to score intermediate steps and provide denser supervision. In practice, PRM scores are often imperfectly aligned with final correctness and can reward locally fluent reasoning that still ends in an incorrect answer. When optimized as absolute rewards, such signals can amplify fluent failure modes and induce reward hacking.We propose PROGRS, a framework that leverages PRMs while keeping outcome correctness dominant. PROGRS treats process rewards as relative preferences within outcome groups rather than absolute targets. We introduce outcome-conditioned centering, which shifts PRM scores of incorrect trajectories to have zero mean within each prompt group. It removes systematic bias while preserving informative rankings. PROGRS combines a frozen quantile-regression PRM with a multi-scale coherence evaluator. We integrate the resulting centered process bonus into Group Relative Policy Optimization (GRPO) without auxiliary objectives or additional trainable components. Across MATH-500, AMC, AIME, MinervaMath, and OlympiadBench, PROGRS consistently improves Pass@1 over outcome-only baselines and achieves stronger performance with fewer rollouts. These results show that outcome-conditioned centering enables safe and effective use of process rewards for mathematical reasoning.