Co-Evolution of Policy and Internal Reward for Language Agents
作者: Xinyu Wang, Hanwei Wu, Jingwei Song, Shuyuan Zhang, Jiayi Zhang, Fanqi Kong, Tung Sum Thomas Kwok, Xiao-Wen Chang, Yuyu Luo, Chenglin Wu, Bang Liu
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出Self-Guide,通过策略与内部奖励的共同进化,提升语言Agent在长程任务中的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言Agent 内部奖励 策略优化 长程任务 自指导 共同进化 强化学习 GRPO
📋 核心要点
- 长程任务中,语言Agent面临稀疏和延迟奖励的挑战,现有方法在推理时指导有限,且奖励改进与策略改进分离。
- 论文提出Self-Guide,一种自生成的内部奖励机制,在推理时提供指导,在训练时提供更密集的策略优化信号。
- 实验表明,推理时Self-Guide即可带来增益,结合GRPO共同进化策略和内部奖励,性能较基线提升8%。
📝 摘要(中文)
大型语言模型(LLM) Agent通过与环境交互进行学习,但长程训练受到稀疏和延迟奖励的根本限制。现有方法通常通过事后信用分配或外部奖励模型来解决这一挑战,这些方法在推理时提供的指导有限,并且通常将奖励改进与策略改进分开。我们提出了Self-Guide,一种为语言Agent自生成的内部奖励,它支持推理时指导和训练时监督。具体来说,Agent使用Self-Guide作为短期的自我指导信号来引导推理时的下一步动作,并将相同的信号转换为步进级别的内部奖励,以便在训练期间进行更密集的策略优化。这创建了一个共同进化的循环:更好的策略产生更好的指导,而更好的指导作为内部奖励进一步改进策略。在三个Agent基准测试中,推理时自我指导已经产生了明显的收益,而使用GRPO共同进化策略和内部奖励带来了比仅使用环境奖励训练的基线进一步的改进(8%)。总的来说,我们的结果表明,语言Agent不仅可以通过收集更多经验来改进,还可以通过学习在行动和学习期间生成和改进自己的内部奖励来改进。
🔬 方法详解
问题定义:现有语言Agent在长程任务中面临奖励稀疏和延迟的问题,导致训练困难。传统方法依赖于事后信用分配或外部奖励模型,但这些方法在推理阶段无法提供有效的指导,并且奖励机制的优化与Agent策略的优化是分离的,无法形成正向循环。
核心思路:论文的核心思路是让Agent学习生成自己的内部奖励信号,这个信号既能在推理时指导Agent的行动,又能在训练时作为更密集的奖励信号来优化策略。通过这种方式,策略的提升可以反过来提升内部奖励的质量,形成一个策略和奖励共同进化的正向循环。
技术框架:Self-Guide框架包含两个主要阶段:推理阶段和训练阶段。在推理阶段,Agent首先根据当前状态生成Self-Guide信号,然后利用该信号指导下一步动作的选择。在训练阶段,Agent将推理阶段生成的Self-Guide信号转化为步进级别的内部奖励,并结合环境奖励,使用GRPO(Generalized Proximal Policy Optimization)算法来优化策略。整体流程形成一个闭环,策略的提升会带来更好的Self-Guide信号,而更好的Self-Guide信号又会进一步提升策略。
关键创新:论文的关键创新在于提出了Self-Guide这种自生成的内部奖励机制,它将推理时的指导和训练时的监督统一起来,并且通过策略和奖励的共同进化,克服了传统方法中奖励信号稀疏和奖励优化与策略优化分离的问题。这种方法使得Agent能够更好地探索环境,并学习到更有效的策略。
关键设计:Self-Guide信号的具体形式可以根据任务的特点进行设计,例如可以是文本描述、数值评分等。在训练阶段,论文使用了GRPO算法,这是一种改进的PPO算法,能够更好地处理内部奖励和环境奖励之间的关系。此外,论文还设计了一些正则化项,以防止Self-Guide信号过度拟合当前策略,从而保证其泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Self-Guide在三个Agent基准测试中均取得了显著的性能提升。仅在推理时使用Self-Guide即可带来增益,而结合GRPO共同进化策略和内部奖励,性能较仅使用环境奖励训练的基线进一步提升了8%。这些结果验证了Self-Guide的有效性,并表明语言Agent可以通过学习生成和改进自己的内部奖励来提升性能。
🎯 应用场景
该研究成果可应用于各种需要长程规划和决策的语言Agent任务,例如机器人导航、游戏AI、对话系统等。通过学习生成内部奖励,Agent能够更好地理解任务目标,并在复杂环境中做出更有效的决策。该方法有望提升Agent的自主性和适应性,使其能够更好地服务于现实世界的应用。
📄 摘要(原文)
Large language model (LLM) agents learn by interacting with environments, but long-horizon training remains fundamentally bottlenecked by sparse and delayed rewards. Existing methods typically address this challenge through post-hoc credit assignment or external reward models, which provide limited guidance at inference time and often separate reward improvement from policy improvement. We propose Self-Guide, a self-generated internal reward for language agents that supports both inference-time guidance and training-time supervision. Specifically, the agent uses Self-Guide as a short self-guidance signal to steer the next action during inference, and converts the same signal into step-level internal reward for denser policy optimization during training. This creates a co-evolving loop: better policy produces better guidance, and better guidance further improves policy as internal reward. Across three agent benchmarks, inference-time self-guidance already yields clear gains, while jointly evolving policy and internal reward with GRPO brings further improvements (8\%) over baselines trained solely with environment reward. Overall, our results suggest that language agents can improve not only by collecting more experience, but also by learning to generate and refine their own internal reward during acting and learning.