Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models

📄 arXiv: 2505.07500v1 📥 PDF

作者: Bahram Mohammadi, Ehsan Abbasnejad, Yuankai Qi, Qi Wu, Anton Van Den Hengel, Javen Qinfeng Shi

分类: cs.CV

发布日期: 2025-05-12


💡 一句话要点

提出PEAP-LLM以解决复杂室内导航问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 导航规划 远程指代 机器人技术 智能家居 人机交互

📋 核心要点

  1. 现有方法在复杂场景中容易出错,且需要人工干预,难以实现高效的导航规划。
  2. 本文提出PEAP-LLM,通过LGP和LAP模块实现高效的单步指令生成,解决了复杂导航中的指令生成问题。
  3. 实验结果显示,PEAP-LLM在REVERIE任务上表现优越,相较于之前的最先进方法有显著提升。

📝 摘要(中文)

远程具身指代表达(REVERIE)任务要求代理在复杂的室内环境中导航,并根据高层指令定位远程物体,如“给我拿一个勺子”,而无需预先探索。因此,高效的导航计划对最终成功至关重要。本文提出了一种新颖的基于大语言模型的参数高效行动规划器(PEAP-LLM),在每个位置生成单步指令。该模型由两个模块组成:LLM目标规划器(LGP)和LoRA行动规划器(LAP)。LGP从REVERIE指令中提取目标导向的计划,而LAP则结合目标导向计划、高层指令和当前视觉观察生成单步指令。实验结果表明,所提模型在REVERIE任务上优于现有的最先进方法。

🔬 方法详解

问题定义:本文旨在解决远程具身指代表达任务中的导航规划问题。现有方法在复杂环境中表现不佳,容易产生错误,且需要人工干预。

核心思路:论文提出的PEAP-LLM通过两个模块(LGP和LAP)实现高效的单步指令生成,旨在提高导航的准确性和效率。

技术框架:整体架构包括LGP模块用于提取目标导向计划,LAP模块用于生成基于当前环境的单步指令。代理在导航过程中动态与LAP交互。

关键创新:最重要的创新在于提出了两阶段的微调方法,包括监督微调(STF)和直接偏好优化(DPO),有效减少了生成的幻觉和偏见信息。

关键设计:在设计中,STF用于提高指令质量,DPO利用环境反馈进行优化,确保生成指令的准确性和实用性。

📊 实验亮点

实验结果表明,PEAP-LLM在REVERIE任务上相较于之前的最先进方法,性能提升显著,具体表现为成功率提高了XX%,生成指令的准确性和效率均有明显改善。

🎯 应用场景

该研究的潜在应用领域包括智能家居、机器人导航和人机交互等场景。通过提高机器人在复杂环境中的导航能力,能够显著提升用户体验和工作效率,具有广泛的实际价值和未来影响。

📄 摘要(原文)

The remote embodied referring expression (REVERIE) task requires an agent to navigate through complex indoor environments and localize a remote object specified by high-level instructions, such as "bring me a spoon", without pre-exploration. Hence, an efficient navigation plan is essential for the final success. This paper proposes a novel parameter-efficient action planner using large language models (PEAP-LLM) to generate a single-step instruction at each location. The proposed model consists of two modules, LLM goal planner (LGP) and LoRA action planner (LAP). Initially, LGP extracts the goal-oriented plan from REVERIE instructions, including the target object and room. Then, LAP generates a single-step instruction with the goal-oriented plan, high-level instruction, and current visual observation as input. PEAP-LLM enables the embodied agent to interact with LAP as the path planner on the fly. A simple direct application of LLMs hardly achieves good performance. Also, existing hard-prompt-based methods are error-prone in complicated scenarios and need human intervention. To address these issues and prevent the LLM from generating hallucinations and biased information, we propose a novel two-stage method for fine-tuning the LLM, consisting of supervised fine-tuning (STF) and direct preference optimization (DPO). SFT improves the quality of generated instructions, while DPO utilizes environmental feedback. Experimental results show the superiority of our proposed model on REVERIE compared to the previous state-of-the-art.