PIGEON: VLM-Driven Object Navigation via Points of Interest Selection

📄 arXiv: 2511.13207v1 📥 PDF

作者: Cheng Peng, Zhenzhe Zhang, Cheng Chi, Xiaobao Wei, Yanhao Zhang, Heng Wang, Pengwei Wang, Zhongyuan Wang, Jing Liu, Shanghang Zhang

分类: cs.RO, cs.CV

发布日期: 2025-11-17


💡 一句话要点

PIGEON:基于视觉语言模型和兴趣点选择的物体导航方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 物体导航 视觉语言模型 兴趣点选择 具身智能 强化学习

📋 核心要点

  1. 现有物体导航方法在决策频率和智能之间难以平衡,导致导航动作缺乏远见或不连贯。
  2. PIGEON通过视觉语言模型选择兴趣点,并结合低级别规划器,提高决策频率,实现更智能的导航。
  3. 实验表明,PIGEON在零样本迁移中达到SOTA,且可验证奖励强化学习进一步提升了模型的语义引导能力。

📝 摘要(中文)

在未知环境中导航到指定物体是具身智能的一项基本但具有挑战性的能力。目前的方法难以平衡决策频率和智能,导致决策缺乏远见或动作不连续。本文提出了PIGEON:一种基于兴趣点引导的探索方法,利用视觉语言模型进行物体导航。该方法在探索过程中维护一个轻量级且语义对齐的快照记忆,作为探索策略的语义输入。我们使用大型视觉语言模型(VLM),命名为PIGEON-VL,来选择探索过程中形成的兴趣点(PoI),然后使用较低级别的规划器进行动作输出,从而提高决策频率。此外,基于PoI的决策制定能够生成适用于模拟器的可验证奖励强化学习(RLVR)数据。在经典物体导航基准上的实验表明,我们的零样本迁移方法实现了最先进的性能,而RLVR进一步增强了模型的语义引导能力,从而在实时导航过程中实现深度推理。

🔬 方法详解

问题定义:论文旨在解决在未知环境中导航到特定物体的任务。现有方法的痛点在于难以在决策频率和决策智能之间取得平衡。频繁决策可能导致短视行为,而过于智能的决策则可能导致动作不连贯。

核心思路:论文的核心思路是利用视觉语言模型(VLM)来指导探索过程,并选择有意义的兴趣点(PoI)。通过将复杂的导航任务分解为选择PoI和执行局部动作两个阶段,可以在保证决策智能的同时提高决策频率。

技术框架:PIGEON的整体框架包含以下几个主要模块:1) 环境感知模块:用于获取环境的视觉信息;2) 快照记忆模块:用于存储探索过程中的语义对齐的快照;3) 兴趣点选择模块(PIGEON-VL):使用VLM从快照记忆中选择下一个要探索的兴趣点;4) 低级别规划器:根据选定的兴趣点生成具体的导航动作。

关键创新:论文的关键创新在于将VLM引入物体导航任务,并利用VLM的语义理解能力来指导探索过程。通过选择兴趣点,可以将导航任务分解为更易于处理的子任务,从而提高导航效率和鲁棒性。此外,论文还提出了基于兴趣点的可验证奖励强化学习(RLVR)方法,进一步提升了模型的语义引导能力。

关键设计:PIGEON-VL使用预训练的视觉语言模型,并针对物体导航任务进行微调。快照记忆模块采用轻量级设计,以减少计算负担。低级别规划器可以使用现有的导航算法,例如DWA或MPC。RLVR的设计目标是提供可验证的奖励信号,以鼓励模型选择更有意义的兴趣点。

📊 实验亮点

PIGEON在经典物体导航基准测试中取得了显著的性能提升。零样本迁移实验表明,PIGEON达到了最先进的水平。通过引入可验证奖励强化学习(RLVR),模型的语义引导能力得到了进一步增强,从而在实时导航过程中实现了更深层次的推理。

🎯 应用场景

PIGEON具有广泛的应用前景,例如家庭服务机器人、仓库物流机器人、以及搜索救援机器人等。该方法可以帮助机器人在复杂环境中自主导航到指定物体,提高工作效率和安全性。未来,该技术还可以应用于自动驾驶、智能安防等领域。

📄 摘要(原文)

Navigating to a specified object in an unknown environment is a fundamental yet challenging capability of embodied intelligence. However, current methods struggle to balance decision frequency with intelligence, resulting in decisions lacking foresight or discontinuous actions. In this work, we propose PIGEON: Point of Interest Guided Exploration for Object Navigation with VLM, maintaining a lightweight and semantically aligned snapshot memory during exploration as semantic input for the exploration strategy. We use a large Visual-Language Model (VLM), named PIGEON-VL, to select Points of Interest (PoI) formed during exploration and then employ a lower-level planner for action output, increasing the decision frequency. Additionally, this PoI-based decision-making enables the generation of Reinforcement Learning with Verifiable Reward (RLVR) data suitable for simulators. Experiments on classic object navigation benchmarks demonstrate that our zero-shot transfer method achieves state-of-the-art performance, while RLVR further enhances the model's semantic guidance capabilities, enabling deep reasoning during real-time navigation.