Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

📄 arXiv: 2603.06064v1 📥 PDF

作者: Kai Göbel, Pierrick Lorang, Patrik Zips, Tobias Glück

分类: cs.AI

发布日期: 2026-03-06


💡 一句话要点

提出基于逐步PDDL仿真的Agentic LLM规划方法,并进行了实证分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 任务规划 PDDL 仿真环境 Agentic规划

📋 核心要点

  1. 现有任务规划方法在复杂环境下存在局限性,难以有效利用大型语言模型(LLMs)的知识。
  2. 提出一种基于PyPDDLEngine的Agentic LLM规划方法,通过逐步PDDL仿真与LLM交互,实现更灵活的任务规划。
  3. 实验表明,Agentic LLM规划在Blocksworld问题上略优于直接LLM规划,但与经典规划器相比仍有差距,且token成本更高。

📝 摘要(中文)

任务规划是自主机器人系统的核心能力需求,即对一系列动作进行排序,以从初始状态达到目标。大型语言模型(LLMs)是否能像传统的符号方法一样作为可行的规划器,仍然是一个悬而未决的问题。我们提出了PyPDDLEngine,一个开源的规划领域定义语言(PDDL)仿真引擎,它通过模型上下文协议(MCP)接口将规划操作作为LLM工具调用公开。LLM不是预先确定完整的动作序列,而是充当交互式搜索策略,一次选择一个动作,观察每个结果状态,并且可以重置和重试。我们在统一的180秒预算下,在102个国际规划竞赛(IPC)Blocksworld实例上评估了四种方法:Fast Downward lama-first和seq-sat-lama-2011作为经典基线,直接LLM规划(Claude Haiku 4.5)以及通过PyPDDLEngine的agentic LLM规划。Fast Downward实现了85.3%的成功率。直接和agentic LLM方法分别实现了63.7%和66.7%的成功率,agentic方法在每个解决方案的token成本高出5.7倍的情况下,获得了持续但适度的三个百分点的优势。在大多数共同解决的难度块中,尽管seq-sat-lama-2011进行了迭代质量改进,但两种LLM方法都产生了比它更短的计划,这一结果与训练数据回忆一致,而不是可泛化的规划。这些结果表明,agentic增益取决于环境反馈的性质。编码代理受益于外部基础信号,例如编译器错误和测试失败,而PDDL步骤反馈是自我评估的,使得代理在没有外部验证的情况下评估自己的进度。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在任务规划中的应用,特别是能否作为传统符号规划方法的替代方案。现有方法,如直接使用LLM进行规划,缺乏与环境的有效交互,难以处理复杂任务。传统规划器虽然高效,但缺乏LLM的知识和泛化能力。

核心思路:论文的核心思路是将LLM作为一个智能体(Agent),通过与PDDL仿真环境进行交互来逐步规划任务。LLM不是一次性生成完整的动作序列,而是每次选择一个动作,观察环境反馈,并根据反馈调整后续动作。这种交互式的方式允许LLM利用环境信息,提高规划的灵活性和适应性。

技术框架:整体框架包括:1) PDDL仿真环境(PyPDDLEngine),用于模拟任务环境和执行动作;2) LLM作为智能体,负责选择动作;3) 模型上下文协议(MCP)接口,用于LLM与仿真环境之间的通信。LLM通过MCP接口调用仿真环境的规划操作,获取状态信息,并根据状态信息选择下一个动作。整个过程是一个循环迭代的过程,直到达到目标状态或达到最大迭代次数。

关键创新:关键创新在于将LLM与PDDL仿真环境相结合,实现了一种Agentic LLM规划方法。这种方法允许LLM在规划过程中与环境进行交互,从而更好地利用环境信息,提高规划的灵活性和适应性。与直接LLM规划相比,Agentic LLM规划能够更好地处理复杂任务。

关键设计:论文使用Claude Haiku 4.5作为LLM,并使用PyPDDLEngine作为PDDL仿真环境。MCP接口定义了LLM与仿真环境之间的通信协议。实验中,设置了180秒的时间预算,并使用102个IPC Blocksworld实例进行评估。论文没有明确说明具体的损失函数或网络结构,因为LLM是预训练的,不需要额外的训练。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Agentic LLM规划在Blocksworld问题上略优于直接LLM规划(66.7% vs 63.7%),但与经典规划器Fast Downward(85.3%)相比仍有差距。尽管LLM方法生成的计划长度通常比seq-sat-lama-2011更短,但token成本更高。研究强调了环境反馈对Agentic LLM规划的重要性。

🎯 应用场景

该研究成果可应用于机器人自主导航、智能制造、游戏AI等领域。通过将LLM与环境仿真相结合,可以实现更智能、更灵活的任务规划,提高系统的自主性和适应性。未来,可以将该方法扩展到更复杂的任务环境,并探索更有效的LLM与环境交互方式。

📄 摘要(原文)

Task planning, the problem of sequencing actions to reach a goal from an initial state, is a core capability requirement for autonomous robotic systems. Whether large language models (LLMs) can serve as viable planners alongside classical symbolic methods remains an open question. We present PyPDDLEngine, an open-source Planning Domain Definition Language (PDDL) simulation engine that exposes planning operations as LLM tool calls through a Model Context Protocol (MCP) interface. Rather than committing to a complete action sequence upfront, the LLM acts as an interactive search policy that selects one action at a time, observes each resulting state, and can reset and retry. We evaluate four approaches on 102 International Planning Competition (IPC) Blocksworld instances under a uniform 180-second budget: Fast Downward lama-first and seq-sat-lama-2011 as classical baselines, direct LLM planning (Claude Haiku 4.5), and agentic LLM planning via PyPDDLEngine. Fast Downward achieves 85.3% success. The direct and agentic LLM approaches achieve 63.7% and 66.7%, respectively, a consistent but modest three-percentage-point advantage for the agentic approach at $5.7\times$ higher token cost per solution. Across most co-solved difficulty blocks, both LLM approaches produce shorter plans than seq-sat-lama-2011 despite its iterative quality improvement, a result consistent with training-data recall rather than generalisable planning. These results suggest that agentic gains depend on the nature of environmental feedback. Coding agents benefit from externally grounded signals such as compiler errors and test failures, whereas PDDL step feedback is self-assessed, leaving the agent to evaluate its own progress without external verification.