STEP Planner: Constructing cross-hierarchical subgoal tree as an embodied long-horizon task planner

作者: Tianxing Zhou, Zhirui Wang, Haojia Ao, Guangyan Chen, Boyang Xing, Jingwen Cheng, Yi Yang, Yufeng Yue

分类: cs.RO

发布日期: 2025-06-26 (更新: 2025-07-16)

💡 一句话要点

提出STEP规划器以解决长远任务规划问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长远任务规划 子目标树 大型语言模型 闭环反馈 机器人技术

📋 核心要点

现有方法在长远任务规划中成功率低，尤其是大型语言模型在复杂任务推理中的局限性。
STEP框架通过构建子目标树，结合子目标分解和叶节点终止模型，有效分解复杂任务并实时反馈。
在VirtualHome WAH-NL基准和真实机器人实验中，STEP的任务完成率显著提升，分别达到34%和25%。

📝 摘要（中文）

长远任务规划的可靠性对于机器人在现实环境中的部署至关重要。然而，直接使用大型语言模型（LLMs）作为动作序列生成器往往导致成功率低下，因为其在长远任务推理方面能力有限。STEP框架通过一对闭环模型构建了一个子目标树：子目标分解模型和叶节点终止模型。该框架开发了一个从粗到细的层次树结构，子目标分解模型利用基础LLM将复杂目标分解为可管理的子目标，从而构建子目标树。叶节点终止模型根据环境状态提供实时反馈，决定何时终止树的扩展，确保每个叶节点可以直接转化为原始动作。实验结果表明，STEP在VirtualHome WAH-NL基准和真实机器人上的长远任务完成率分别达到34%和25%，超越了现有最先进的方法。

🔬 方法详解

问题定义：本论文旨在解决长远任务规划中的低成功率问题，现有方法在复杂任务推理上存在局限性，导致机器人在实际应用中表现不佳。

核心思路：论文提出的核心思路是构建一个层次化的子目标树，通过子目标分解模型将复杂目标分解为可管理的子目标，并通过叶节点终止模型实时反馈环境状态，确保每个叶节点能转化为具体动作。

技术框架：整体架构包括两个主要模块：子目标分解模型和叶节点终止模型。子目标分解模型利用基础LLM进行目标分解，叶节点终止模型则根据环境反馈决定何时终止树的扩展。

关键创新：最重要的技术创新在于构建了一个跨层次的子目标树，结合了闭环反馈机制，使得长远任务规划的成功率显著提高。这一方法与传统的线性任务规划方法有本质区别。

关键设计：在设计中，子目标分解模型的参数设置和损失函数经过精心调整，以确保模型能够有效分解复杂目标；同时，叶节点终止模型的实时反馈机制也经过优化，以提高决策的准确性和及时性。

📊 实验亮点

实验结果显示，STEP在VirtualHome WAH-NL基准上的任务完成率达到34%，在真实机器人上的完成率为25%，均显著优于现有最先进的方法，展示了其在长远任务规划中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化系统和人机协作等。通过提高长远任务规划的成功率，STEP框架能够在复杂环境中更好地支持机器人执行多样化任务，具有重要的实际价值和未来影响。

📄 摘要（原文）

The ability to perform reliable long-horizon task planning is crucial for deploying robots in real-world environments. However, directly employing Large Language Models (LLMs) as action sequence generators often results in low success rates due to their limited reasoning ability for long-horizon embodied tasks. In the STEP framework, we construct a subgoal tree through a pair of closed-loop models: a subgoal decomposition model and a leaf node termination model. Within this framework, we develop a hierarchical tree structure that spans from coarse to fine resolutions. The subgoal decomposition model leverages a foundation LLM to break down complex goals into manageable subgoals, thereby spanning the subgoal tree. The leaf node termination model provides real-time feedback based on environmental states, determining when to terminate the tree spanning and ensuring each leaf node can be directly converted into a primitive action. Experiments conducted in both the VirtualHome WAH-NL benchmark and on real robots demonstrate that STEP achieves long-horizon embodied task completion with success rates up to 34% (WAH-NL) and 25% (real robot) outperforming SOTA methods.

STEP Planner: Constructing cross-hierarchical subgoal tree as an embodied long-horizon task planner

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册