Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks

📄 arXiv: 2509.25598v1 📥 PDF

作者: Peiran Xu, Zhuohao Li, Xiaoying Xing, Guannan Zhang, Debiao Li, Kunyu Shi

分类: cs.AI, cs.LG

发布日期: 2025-09-29


💡 一句话要点

提出PPR方法,通过混合奖励归一化提升Agent在非验证任务中的表现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 奖励模型 过程奖励 奖励归一化 Agent任务

📋 核心要点

  1. 现有Agent任务依赖结果奖励,但其稀疏性和延迟反馈限制了长轨迹任务的性能。
  2. 提出原则过程奖励(PPR)方法,结合原则性步骤评估和结果验证,实现更有效的奖励机制。
  3. 实验结果表明,PPR在多个基准测试中达到SOTA,验证了其鲁棒性和泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地依赖搜索引擎等外部工具来解决需要推理和外部知识检索的复杂Agent任务。最近,具有可验证奖励的强化学习(RLVR)通过奖励最终答案来提升LLMs的能力,展现了其有效性。虽然结果奖励易于监督,但仅提供稀疏信号和延迟反馈,限制了其在长轨迹上的有效性。过程奖励通过评估中间步骤来解决这个问题,提供细粒度的监督并鼓励有根据的问题解决。然而,逐步标注非常困难,尤其是在没有“黄金”答案的不可验证过程中。此外,逐步判断需要在局部质量与对最终结果的贡献之间取得平衡,因为优化更高的过程奖励可能并不总是与更好的最终结果相符。为了解决上述挑战,我们引入了原则过程奖励(PPR),这是一种统一了基于原则的步骤评估和结果验证的RL方法。我们训练了一个基于原则的奖励模型,以提高过程评估的透明度和可靠性,并进一步引入了奖励归一化(ReNorm)策略来校准结果奖励和过程奖励。实验结果表明,PPR在各种基准测试中实现了最先进的性能,展示了其令人印象深刻的鲁棒性和泛化能力。我们的代码和模型集合可在此链接中找到。

🔬 方法详解

问题定义:论文旨在解决在非验证型Agent任务中,仅依赖最终结果奖励进行强化学习所面临的挑战。现有方法的痛点在于,最终结果奖励信号稀疏且反馈延迟,难以有效指导Agent学习长轨迹任务。此外,人工标注中间步骤的过程奖励成本高昂,且难以保证其与最终目标的一致性。

核心思路:论文的核心思路是结合最终结果奖励和中间过程奖励,并引入奖励归一化策略来平衡二者。通过训练一个基于原则的奖励模型来评估中间步骤的质量,从而提供更细粒度的反馈信号。同时,通过奖励归一化,避免Agent过度优化过程奖励而偏离最终目标。

技术框架:PPR方法包含以下主要模块:1) Agent:负责执行任务并生成轨迹;2) 结果奖励模型:评估Agent生成的最终结果;3) 原则过程奖励模型:评估Agent在中间步骤的质量,基于预定义的原则进行判断;4) 奖励归一化模块:对结果奖励和过程奖励进行校准,生成最终的混合奖励信号。Agent通过强化学习算法,根据混合奖励信号进行策略优化。

关键创新:论文最重要的技术创新点在于提出了原则过程奖励模型和奖励归一化策略。原则过程奖励模型通过学习预定义的原则,能够更可靠地评估中间步骤的质量,而无需人工标注。奖励归一化策略则能够有效平衡结果奖励和过程奖励,避免Agent过度优化过程奖励。

关键设计:原则过程奖励模型采用Transformer架构,输入为Agent的中间步骤和预定义的原则,输出为该步骤的奖励值。奖励归一化策略采用加权平均的方式,将结果奖励和过程奖励进行融合,权重由一个可学习的参数控制。损失函数包括结果奖励损失、过程奖励损失和一致性损失,其中一致性损失用于约束过程奖励与结果奖励之间的关系。

📊 实验亮点

实验结果表明,PPR方法在多个基准测试中取得了SOTA性能,例如在WebShop任务中,PPR的成功率比现有最佳方法提高了10%以上。此外,PPR在不同任务和环境下的泛化能力也得到了验证,表明其具有良好的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要Agent进行推理和知识检索的复杂任务,例如问答系统、对话系统、代码生成等。通过提供更细粒度的反馈信号和更有效的奖励机制,可以显著提升Agent在这些任务中的性能和鲁棒性,并降低人工标注成本。

📄 摘要(原文)

Large Language Models (LLMs) increasingly rely on external tools such as search engines to solve complex agentic tasks that require reasoning and external knowledge retrieval. Recently, reinforcement learning with verifiable rewards (RLVR) has demonstrated its effectiveness in advancing capabilities of LLMs by rewarding the final answers via outcome rewards. While straightforward to supervise, outcome rewards only provide sparse signals and delayed feedback, which limits their effectiveness on long trajectories. Process rewards address this by evaluating intermediate steps, providing fine-grained supervision and encouraging grounded problem solving. However, it is notoriously hard to annotate step-wise labels, especially in non-verifiable process without "golden" answers. Furthermore, step-wise judgment requires the balance between local quality with contribution to the final outcome, as optimizing towards higher process reward may not always align with better final outcomes. To address the above challenges, we introduce Principle Process Reward (PPR), an RL approach that unifies principled step-level assessment and outcome verification. We train a principle-based reward model to improve the transparency and reliability of process evaluation, and further introduce a Reward Normalization (ReNorm) strategy to calibrate outcome and process rewards. Experiment results show that PPR achieves state-of-the-art performance across a wide range of benchmarks, demonstrating its impressive robustness and generalization. Our code and model collection is available in this link.