Expanding LLM Agent Boundaries with Strategy-Guided Exploration

📄 arXiv: 2603.02045v1 📥 PDF

作者: Andrew Szot, Michael Kirchhof, Omar Attia, Alexander Toshev

分类: cs.LG

发布日期: 2026-03-02


💡 一句话要点

提出策略引导探索(SGE)方法,提升LLM Agent在复杂任务中的探索效率与性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 强化学习 策略引导探索 语言策略 探索算法

📋 核心要点

  1. 现有LLM Agent在复杂任务中面临探索难题,尤其是在奖励稀疏和动作空间巨大的环境中,传统RL方法效率低下。
  2. SGE方法利用LLM的规划和推理能力,将探索空间从低级动作转移到高级语言策略,引导智能体进行更有效的探索。
  3. 实验结果表明,SGE在UI交互、工具调用等多种任务中,显著优于现有探索方法,提升了学习效率和最终性能。

📝 摘要(中文)

强化学习(RL)已成功应用于训练大型语言模型(LLM)作为智能体,执行计算机使用、工具调用和编码等任务。然而,探索仍然是LLM智能体RL中的一个核心挑战,尤其是在具有复杂观察和稀疏奖励的语言动作空间中。本文提出策略引导探索(SGE),利用LLM在语言中规划和推理环境的能力,将探索从低级动作转移到高级语言策略。SGE首先生成简洁的自然语言策略,描述为实现目标应采取的行动,然后根据该策略生成环境动作。通过在策略空间而非动作空间中探索,SGE诱导结构化和多样化的探索,针对不同的环境结果。为了增加RL期间的策略多样性,SGE引入了混合温度采样,并行探索不同的策略,以及策略反思过程,将策略生成建立在先前策略在环境中的结果之上。在UI交互、工具调用、编码和具身智能体环境中,SGE始终优于以探索为中心的RL基线,提高了学习效率和最终性能。实验表明,SGE使智能体能够学习解决基础模型难以完成的任务。

🔬 方法详解

问题定义:现有LLM Agent在复杂任务中,面临探索效率低下的问题。传统的强化学习方法在处理高维、稀疏奖励的语言动作空间时,难以有效地探索环境,导致学习效率低下,最终性能受限。尤其是在需要长期规划和复杂推理的任务中,随机探索难以找到有效的策略。

核心思路:SGE的核心思路是将探索空间从低级的动作空间提升到高级的策略空间。通过让LLM生成自然语言策略,指导智能体在环境中的行为,从而实现更结构化、更有效的探索。这种方法利用了LLM的规划和推理能力,使其能够更好地理解任务目标,并制定相应的行动计划。

技术框架:SGE主要包含以下几个模块: 1. 策略生成器:利用LLM生成自然语言策略,描述智能体为了达成目标应该采取的行动。 2. 动作生成器:根据生成的策略,LLM进一步生成具体的环境动作。 3. 混合温度采样:为了增加策略的多样性,SGE采用混合温度采样,并行探索不同的策略。 4. 策略反思:根据先前策略在环境中的结果,LLM反思并改进后续策略的生成。

关键创新:SGE最重要的创新在于将探索空间从动作空间提升到策略空间。与传统的RL方法直接探索动作空间不同,SGE通过探索策略空间,引导智能体进行更结构化、更有效的探索。此外,混合温度采样和策略反思机制进一步增强了策略的多样性和有效性。

关键设计: 1. 策略生成器的Prompt设计:Prompt需要引导LLM生成简洁、明确的自然语言策略,能够有效地指导后续的动作生成。 2. 混合温度采样的温度参数设置:需要根据任务的复杂程度和探索的需求,调整不同温度参数的比例,以平衡探索的多样性和有效性。 3. 策略反思机制的反馈设计:需要设计有效的反馈机制,让LLM能够根据先前策略的结果,学习并改进后续策略的生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SGE在UI交互、工具调用、编码和具身智能体等多个环境中进行了实验,结果表明SGE始终优于以探索为中心的RL基线。例如,在某些任务中,SGE能够使智能体学习解决基础模型难以完成的任务,并且在学习效率和最终性能上均有显著提升。具体性能数据未知,但整体趋势表明SGE是一种有效的探索方法。

🎯 应用场景

SGE方法具有广泛的应用前景,可应用于各种需要LLM Agent进行复杂决策和长期规划的任务中,例如:自动化UI交互、智能工具调用、代码生成、机器人控制等。该方法能够显著提升LLM Agent在这些任务中的学习效率和最终性能,使其能够更好地适应复杂多变的环境。

📄 摘要(原文)

Reinforcement learning (RL) has demonstrated notable success in post-training large language models (LLMs) as agents for tasks such as computer use, tool calling, and coding. However, exploration remains a central challenge in RL for LLM agents, especially as they operate in language-action spaces with complex observations and sparse outcome rewards. In this work, we address exploration for LLM agents by leveraging the ability of LLMs to plan and reason in language about the environment to shift exploration from low-level actions to higher-level language strategies. We thus propose Strategy-Guided Exploration (SGE), which first generates a concise natural-language strategy that describes what to do to make progress toward the goal, and then generates environment actions conditioned on that strategy. By exploring in the space of strategies rather than the space of actions, SGE induces structured and diverse exploration that targets different environment outcomes. To increase strategy diversity during RL, SGE introduces mixed-temperature sampling, which explores diverse strategies in parallel, along with a strategy reflection process that grounds strategy generation on the outcomes of previous strategies in the environment. Across UI interaction, tool-calling, coding, and embodied agent environments, SGE consistently outperforms exploration-focused RL baselines, improving both learning efficiency and final performance. We show that SGE enables the agent to learn to solve tasks too difficult for the base model.