WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning
作者: Yu Xinmiao, Zhang Liwen, Feng Xiaocheng, Jiang Yong, Qin Bing, Xie Pengjun, Zhou Jingren
分类: cs.CL
发布日期: 2026-01-06
💡 一句话要点
WebAnchor:通过锚定Agent规划来稳定长程Web推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 长程推理 强化学习 计划锚定 两阶段学习
📋 核心要点
- 现有基于LLM的Agent在长程Web推理中面临规划瓶颈,原因是初始推理步骤对后续行为影响过大,而现有强化学习方法未能有效解决此问题。
- Anchor-GRPO通过解耦规划和执行,采用两阶段强化学习框架,首先优化初始步骤规划,然后通过稀疏奖励对齐执行过程,从而稳定长程推理。
- 实验结果表明,Anchor-GRPO在多个基准测试中显著优于现有方法,尤其是在BrowseComp和GAIA数据集上,并且展现出良好的模型扩展性。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent在Web信息检索方面表现出强大的能力,强化学习(RL)已成为关键的优化范式。然而,规划仍然是一个瓶颈,因为现有方法难以应对长程策略。我们的分析揭示了一个关键现象,即计划锚定,其中第一个推理步骤对长程Web推理任务中的下游行为产生不成比例的影响。当前的RL算法未能考虑到这一点,因为它们在整个轨迹上均匀地分配奖励。为了解决这个问题,我们提出了Anchor-GRPO,这是一个解耦规划和执行的两阶段RL框架。在第一阶段,Agent使用从自我博弈经验和人工校准中获得的细粒度规则来优化其第一步规划。在第二阶段,执行通过稀疏奖励与初始计划对齐,确保稳定和高效的工具使用。我们在四个基准测试上评估了Anchor-GRPO:BrowseComp、BrowseComp-Zh、GAIA和XBench-DeepSearch。在3B到30B的模型中,Anchor-GRPO优于基线GRPO和First-step GRPO,提高了任务成功率和工具效率。值得注意的是,WebAnchor-30B在BrowseComp上实现了46.0%的pass@1,在GAIA上实现了76.4%。Anchor-GRPO还表现出强大的可扩展性,随着模型大小和上下文长度的增加,准确性也随之提高。
🔬 方法详解
问题定义:论文旨在解决基于LLM的Agent在长程Web推理任务中,由于初始规划步骤对后续行为产生过大影响(即“计划锚定”现象)而导致的规划不稳定问题。现有强化学习方法通常均匀分配奖励,无法有效解决这一问题,导致Agent难以学习到有效的长程策略。
核心思路:论文的核心思路是将长程规划问题分解为两个阶段:初始规划和后续执行。通过首先优化初始规划步骤,并随后将执行过程与初始规划对齐,从而稳定整个推理过程。这种解耦的方式允许Agent更有效地利用强化学习来学习长程策略。
技术框架:Anchor-GRPO是一个两阶段的强化学习框架。第一阶段(规划阶段)专注于优化Agent的第一个推理步骤。Agent通过与环境进行自我博弈,并结合人工校准,学习细粒度的规则来指导初始规划。第二阶段(执行阶段)则通过稀疏奖励来鼓励Agent的执行与初始规划保持一致,从而确保Agent能够有效地利用工具并完成任务。
关键创新:该方法最重要的创新点在于其两阶段的解耦框架,以及对“计划锚定”现象的明确建模。通过将规划和执行分离,并分别进行优化,Anchor-GRPO能够更有效地学习长程策略,并避免了传统强化学习方法中奖励稀疏和探索困难的问题。
关键设计:在第一阶段,论文使用了一种基于自我博弈和人工校准的方法来生成细粒度的规则,这些规则用于指导Agent的初始规划。在第二阶段,论文采用了一种稀疏奖励机制,只有当Agent的执行与初始规划一致时,才会获得奖励。这种稀疏奖励的设计旨在鼓励Agent遵循初始规划,并避免偏离预定的轨迹。具体的损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Anchor-GRPO在BrowseComp、BrowseComp-Zh、GAIA和XBench-DeepSearch四个基准测试中均优于基线GRPO和First-step GRPO。特别是在BrowseComp上,WebAnchor-30B实现了46.0%的pass@1,在GAIA上实现了76.4%。实验结果还表明,Anchor-GRPO具有良好的可扩展性,随着模型大小和上下文长度的增加,性能也随之提升。
🎯 应用场景
该研究成果可广泛应用于需要长程推理和决策的Web Agent任务,例如智能客服、自动化信息检索、智能助手等。通过提高Agent在复杂Web环境中的规划能力和执行效率,可以显著提升用户体验,并降低人工干预的成本。未来,该方法有望扩展到其他需要长程规划的机器人和自动化任务中。
📄 摘要(原文)
Large Language Model(LLM)-based agents have shown strong capabilities in web information seeking, with reinforcement learning (RL) becoming a key optimization paradigm. However, planning remains a bottleneck, as existing methods struggle with long-horizon strategies. Our analysis reveals a critical phenomenon, plan anchor, where the first reasoning step disproportionately impacts downstream behavior in long-horizon web reasoning tasks. Current RL algorithms, fail to account for this by uniformly distributing rewards across the trajectory. To address this, we propose Anchor-GRPO, a two-stage RL framework that decouples planning and execution. In Stage 1, the agent optimizes its first-step planning using fine-grained rubrics derived from self-play experiences and human calibration. In Stage 2, execution is aligned with the initial plan through sparse rewards, ensuring stable and efficient tool usage. We evaluate Anchor-GRPO on four benchmarks: BrowseComp, BrowseComp-Zh, GAIA, and XBench-DeepSearch. Across models from 3B to 30B, Anchor-GRPO outperforms baseline GRPO and First-step GRPO, improving task success and tool efficiency. Notably, WebAnchor-30B achieves 46.0% pass@1 on BrowseComp and 76.4% on GAIA. Anchor-GRPO also demonstrates strong scalability, getting higher accuracy as model size and context length increase.