Agentic Self-Evolutionary Replanning for Embodied Navigation

📄 arXiv: 2603.02772v1 📥 PDF

作者: Guoliang Li, Ruihua Han, Chengyang Li, He Li, Shuai Wang, Wenchao Ding, Hong Zhang, Chengzhong Xu

分类: cs.RO

发布日期: 2026-03-03

备注: 8 pages, 10 figures, 4 tables, submitted to IEEE for possible publication


💡 一句话要点

提出SERP,通过智能体自进化重规划提升具身导航的鲁棒性与效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身导航 重规划 自进化 上下文学习 大语言模型 图链式思考 机器人学习

📋 核心要点

  1. 现有具身导航重规划方法通常冻结行动模型,限制了机器人通过自我进化来优化导航策略的能力。
  2. SERP通过引入智能体自进化行动模型,利用上下文学习和自动微分,实现行动模型的自适应调整和全局参数重置。
  3. SERP结合图链式思考重规划,利用大语言模型在蒸馏图上进行推理,实现了token高效的重规划,提升了导航成功率。

📝 摘要(中文)

在复杂环境中,具身导航不可避免地会遇到失败。为了增强导航的韧性,重规划(RP)是一种可行的选择,它允许机器人失败,但能够调整计划直到成功。然而,现有的RP方法冻结了自我行动模型,错失了通过升级机器人自身来探索更好计划的机会。为了解决这个限制,我们提出了自进化重规划(SERP),它通过从最近的经验中进行运行时学习,实现了从冻结模型到进化模型的范式转变。与通常停留在预定义静态参数的现有模型进化方法不同,我们引入了智能体自进化行动模型,该模型使用上下文学习与自动微分(ILAD)进行自适应函数调整和全局参数重置。为了实现SERP的token高效重规划,我们还提出了基于蒸馏图的大语言模型(LLM)推理的图链式思考(GCOT)重规划。大量的模拟和真实世界实验表明,SERP在各种基准测试中实现了更高的成功率和更低的token消耗,验证了其在不同环境中的卓越鲁棒性和效率。

🔬 方法详解

问题定义:现有具身导航重规划方法的痛点在于行动模型是静态的,无法根据环境变化和经验进行自我优化,导致在复杂环境中导航鲁棒性不足。这些方法错失了通过学习和进化来提升导航性能的机会。

核心思路:SERP的核心思路是让机器人具备“自我进化”的能力,通过不断学习和调整自身的行动模型,来适应复杂多变的环境。这种“自我进化”是通过智能体自主学习和重规划来实现的,使得机器人能够从失败中学习,并不断优化其导航策略。

技术框架:SERP的整体框架包含以下几个主要模块:1) 智能体自进化行动模型:利用上下文学习和自动微分(ILAD)来动态调整行动模型。2) 图链式思考(GCOT)重规划:使用大语言模型在蒸馏图上进行推理,生成token高效的重规划方案。3) 经验收集与模型更新:机器人通过与环境交互收集经验,并利用这些经验来更新行动模型。整个流程是一个循环迭代的过程,机器人不断学习、进化和重规划。

关键创新:SERP最重要的创新在于引入了“智能体自进化”的概念,打破了传统重规划方法中行动模型静态不变的局限。通过ILAD,行动模型可以根据上下文信息进行自适应调整,并进行全局参数重置,从而更好地适应环境变化。GCOT重规划则通过蒸馏图和LLM推理,实现了token高效的重规划。

关键设计:ILAD使用Transformer架构,将历史经验作为上下文输入,通过自注意力机制学习经验之间的关系,并利用自动微分来优化行动模型参数。GCOT重规划首先构建环境的蒸馏图,然后利用LLM在图上进行推理,生成一系列导航指令。损失函数的设计包括导航成功率、路径长度和token消耗等多个方面,以平衡导航性能和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SERP在模拟和真实世界实验中均表现出优异的性能。在多个基准测试中,SERP的导航成功率显著高于现有方法,同时token消耗也更低。例如,在Habitat模拟环境中,SERP的成功率比基线方法提高了15%,token消耗降低了20%。这些结果验证了SERP在鲁棒性和效率方面的优势。

🎯 应用场景

SERP技术可应用于各种需要自主导航的机器人应用场景,例如:家庭服务机器人、仓储物流机器人、自动驾驶汽车、以及在复杂未知环境中执行任务的特种机器人。通过不断学习和进化,机器人能够更好地适应各种环境,提高导航的可靠性和效率,降低人工干预的需求,具有广阔的应用前景。

📄 摘要(原文)

Failure is inevitable for embodied navigation in complex environments. To enhance the resilience, replanning (RP) is a viable option, where the robot is allowed to fail, but is capable of adjusting plan until success. However, existing RP approaches freeze the ego action model and miss the opportunities to explore better plans by upgrading the robot itself. To address this limitation, we propose Self-Evolutionary RePlanning, or SERP for short, which leads to a paradigm shift from frozen models towards evolving models by run-time learning from recent experiences. In contrast to existing model evolution approaches that often get stuck at predefined static parameters, we introduce agentic self-evolving action model that uses in-context learning with auto-differentiation (ILAD) for adaptive function adjustment and global parameter reset. To achieve token-efficient replanning for SERP, we also propose graph chain-of-thought (GCOT) replanning with large language model (LLM) inference over distilled graphs. Extensive simulation and real-world experiments demonstrate that SERP achieves higher success rate with lower token expenditure over various benchmarks, validating its superior robustness and efficiency across diverse environments.