SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment

📄 arXiv: 2603.01477v1 📥 PDF

作者: Chaoran Xiong, Litao Wei, Xinhao Hu, Kehui Ma, Ziyi Xia, Zixin Jiang, Zhen Sun, Ling Pei

分类: cs.RO

发布日期: 2026-03-02

备注: Accepted by 2026 IEEE International Conference on Robotics and Automation (ICRA)


💡 一句话要点

SFCo-Nav:通过慢速LLM与快速属性图对齐协同,实现高效的零样本视觉语言导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 大型语言模型 机器人导航 慢-快协作

📋 核心要点

  1. 现有零样本视觉语言导航方法依赖VLM和LLM的重复推理,导致高延迟和计算成本,限制了实时部署。
  2. SFCo-Nav采用慢-快认知协作,利用慢速LLM进行战略规划,快速导航器执行子目标,异步桥梁进行置信度评估。
  3. 实验表明,SFCo-Nav在保持或超过现有零样本VLN成功率的同时,显著降低了token消耗和运行时间。

📝 摘要(中文)

本文提出了一种名为SFCo-Nav的高效零样本视觉语言导航框架,旨在解决现有方法中由于大规模视觉语言模型(VLM)和大型语言模型(LLM)的重复推理导致的高延迟和计算成本问题。SFCo-Nav受到快慢认知协作原则的启发,集成了三个关键模块:1) 基于慢速LLM的规划器,生成一系列与假想对象图关联的子目标;2) 快速反应导航器,用于实时构建对象图和执行子目标;3) 轻量级的异步慢-快桥,对齐结构化的假想图和感知图,估计导航置信度,并在必要时触发慢速LLM规划器。据我们所知,SFCo-Nav是第一个支持根据内部置信度异步触发LLM的慢-快协作零样本VLN系统。在R2R和REVERIE基准测试中,SFCo-Nav在达到或超过现有零样本VLN成功率的同时,将每条轨迹的总token消耗降低了50%以上,并运行速度提高了3.5倍以上。最后,我们在酒店套房的腿式机器人上展示了SFCo-Nav,展示了其在室内环境中的效率和实用性。

🔬 方法详解

问题定义:现有零样本视觉语言导航方法在执行自然语言指令时,通常需要对每个步骤进行VLM和LLM的推理,这导致了极高的计算成本和延迟,难以满足实时应用的需求。痛点在于如何降低计算复杂度,同时保持导航的准确性。

核心思路:SFCo-Nav的核心思路是模拟人类的快慢认知系统。慢速LLM负责高层次的战略规划,生成子目标序列;快速导航器则负责实时感知环境并执行这些子目标。通过异步的慢-快桥,系统可以根据导航置信度动态地调整LLM的参与程度,从而在保证导航质量的同时,显著降低计算成本。

技术框架:SFCo-Nav包含三个主要模块:1) 慢速LLM规划器:根据自然语言指令,生成一系列子目标,并构建与每个子目标相关的假想对象图。2) 快速反应导航器:实时构建环境的对象图,并根据子目标执行导航。3) 异步慢-快桥:对齐假想对象图和感知对象图,估计导航置信度。如果置信度低于阈值,则触发慢速LLM重新规划。整个流程是异步的,允许快速导航器独立运行,只有在必要时才需要LLM的介入。

关键创新:SFCo-Nav的关键创新在于其慢-快协作的架构和异步触发机制。与现有方法不同,SFCo-Nav不是在每个步骤都进行VLM-LLM推理,而是通过LLM进行战略规划,并利用快速导航器执行子目标。异步触发机制允许系统根据导航置信度动态地调整LLM的参与程度,从而在保证导航质量的同时,显著降低计算成本。

关键设计:慢速LLM规划器使用预训练的LLM(具体模型未知)进行指令解析和子目标生成。快速反应导航器使用视觉特征提取器(具体网络结构未知)和图神经网络(GNN,具体结构未知)构建对象图。异步慢-快桥使用图匹配算法(具体算法未知)对齐假想对象图和感知对象图,并使用置信度估计器(具体实现未知)评估导航置信度。置信度阈值的设置对系统的性能至关重要,需要在实验中进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SFCo-Nav在R2R和REVERIE基准测试中取得了显著的性能提升。在达到或超过现有零样本VLN成功率的同时,SFCo-Nav将每条轨迹的总token消耗降低了50%以上,运行速度提高了3.5倍以上。此外,该论文还在真实的酒店套房环境中进行了机器人实验,验证了SFCo-Nav的实用性和有效性。

🎯 应用场景

SFCo-Nav在机器人导航领域具有广泛的应用前景,尤其适用于需要实时性和低功耗的场景,例如家庭服务机器人、物流机器人、安防巡逻机器人等。该研究成果有助于提升机器人在复杂环境中的自主导航能力,并降低部署成本,加速机器人技术的商业化进程。未来,该方法可以扩展到更复杂的任务和环境,例如户外导航、多机器人协作等。

📄 摘要(原文)

Recent advances in large vision-language models (VLMs) and large language models (LLMs) have enabled zero-shot approaches to visual language navigation (VLN), where an agent follows natural language instructions using only ego perception and reasoning. However, existing zero-shot methods typically construct a naive observation graph and perform per-step VLM-LLM inference on it, resulting in high latency and computation costs that limit real-time deployment. To address this, we present SFCo-Nav, an efficient zero-shot VLN framework inspired by the principle of slow-fast cognitive collaboration. SFCo-Nav integrates three key modules: 1) a slow LLM-based planner that produces a strategic chain of subgoals, each linked to an imagined object graph; 2) a fast reactive navigator for real-time object graph construction and subgoal execution; and 3) a lightweight asynchronous slow-fast bridge aligns advanced structured, attributed imagined and perceived graphs to estimate navigation confidence, triggering the slow LLM planner only when necessary. To the best of our knowledge, SFCo-Nav is the first slow-fast collaboration zero-shot VLN system supporting asynchronous LLM triggering according to the internal confidence. Evaluated on the public R2R and REVERIE benchmarks, SFCo-Nav matches or exceeds prior state-of-the-art zero-shot VLN success rates while cutting total token consumption per trajectory by over 50% and running more than 3.5 times faster. Finally, we demonstrate SFCo-Nav on a legged robot in a hotel suite, showcasing its efficiency and practicality in indoor environments.