SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment

作者: Chaoran Xiong, Litao Wei, Xinhao Hu, Kehui Ma, Ziyi Xia, Zixin Jiang, Zhen Sun, Ling Pei

分类: cs.RO

发布日期: 2026-03-02

备注: Accepted by 2026 IEEE International Conference on Robotics and Automation (ICRA)

💡 一句话要点

SFCo-Nav：通过慢速LLM与快速属性图对齐协同，实现高效的零样本视觉语言导航

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 零样本学习 大型语言模型 机器人导航 慢-快协作

📋 核心要点

现有零样本视觉语言导航方法依赖VLM和LLM的重复推理，导致高延迟和计算成本，限制了实时部署。
SFCo-Nav采用慢-快认知协作，利用慢速LLM进行战略规划，快速导航器执行子目标，异步桥梁进行置信度评估。
实验表明，SFCo-Nav在保持或超过现有零样本VLN成功率的同时，显著降低了token消耗和运行时间。

📝 摘要（中文）

本文提出了一种名为SFCo-Nav的高效零样本视觉语言导航框架，旨在解决现有方法中由于大规模视觉语言模型(VLM)和大型语言模型(LLM)的重复推理导致的高延迟和计算成本问题。SFCo-Nav受到快慢认知协作原则的启发，集成了三个关键模块：1) 基于慢速LLM的规划器，生成一系列与假想对象图关联的子目标；2) 快速反应导航器，用于实时构建对象图和执行子目标；3) 轻量级的异步慢-快桥，对齐结构化的假想图和感知图，估计导航置信度，并在必要时触发慢速LLM规划器。据我们所知，SFCo-Nav是第一个支持根据内部置信度异步触发LLM的慢-快协作零样本VLN系统。在R2R和REVERIE基准测试中，SFCo-Nav在达到或超过现有零样本VLN成功率的同时，将每条轨迹的总token消耗降低了50%以上，并运行速度提高了3.5倍以上。最后，我们在酒店套房的腿式机器人上展示了SFCo-Nav，展示了其在室内环境中的效率和实用性。

🔬 方法详解

问题定义：现有零样本视觉语言导航方法在执行自然语言指令时，通常需要对每个步骤进行VLM和LLM的推理，这导致了极高的计算成本和延迟，难以满足实时应用的需求。痛点在于如何降低计算复杂度，同时保持导航的准确性。

核心思路：SFCo-Nav的核心思路是模拟人类的快慢认知系统。慢速LLM负责高层次的战略规划，生成子目标序列；快速导航器则负责实时感知环境并执行这些子目标。通过异步的慢-快桥，系统可以根据导航置信度动态地调整LLM的参与程度，从而在保证导航质量的同时，显著降低计算成本。

技术框架：SFCo-Nav包含三个主要模块：1) 慢速LLM规划器：根据自然语言指令，生成一系列子目标，并构建与每个子目标相关的假想对象图。2) 快速反应导航器：实时构建环境的对象图，并根据子目标执行导航。3) 异步慢-快桥：对齐假想对象图和感知对象图，估计导航置信度。如果置信度低于阈值，则触发慢速LLM重新规划。整个流程是异步的，允许快速导航器独立运行，只有在必要时才需要LLM的介入。

关键创新：SFCo-Nav的关键创新在于其慢-快协作的架构和异步触发机制。与现有方法不同，SFCo-Nav不是在每个步骤都进行VLM-LLM推理，而是通过LLM进行战略规划，并利用快速导航器执行子目标。异步触发机制允许系统根据导航置信度动态地调整LLM的参与程度，从而在保证导航质量的同时，显著降低计算成本。

关键设计：慢速LLM规划器使用预训练的LLM（具体模型未知）进行指令解析和子目标生成。快速反应导航器使用视觉特征提取器（具体网络结构未知）和图神经网络（GNN，具体结构未知）构建对象图。异步慢-快桥使用图匹配算法（具体算法未知）对齐假想对象图和感知对象图，并使用置信度估计器（具体实现未知）评估导航置信度。置信度阈值的设置对系统的性能至关重要，需要在实验中进行调整。

🖼️ 关键图片

📊 实验亮点

SFCo-Nav在R2R和REVERIE基准测试中取得了显著的性能提升。在达到或超过现有零样本VLN成功率的同时，SFCo-Nav将每条轨迹的总token消耗降低了50%以上，运行速度提高了3.5倍以上。此外，该论文还在真实的酒店套房环境中进行了机器人实验，验证了SFCo-Nav的实用性和有效性。

🎯 应用场景

SFCo-Nav在机器人导航领域具有广泛的应用前景，尤其适用于需要实时性和低功耗的场景，例如家庭服务机器人、物流机器人、安防巡逻机器人等。该研究成果有助于提升机器人在复杂环境中的自主导航能力，并降低部署成本，加速机器人技术的商业化进程。未来，该方法可以扩展到更复杂的任务和环境，例如户外导航、多机器人协作等。

📄 摘要（原文）

Recent advances in large vision-language models (VLMs) and large language models (LLMs) have enabled zero-shot approaches to visual language navigation (VLN), where an agent follows natural language instructions using only ego perception and reasoning. However, existing zero-shot methods typically construct a naive observation graph and perform per-step VLM-LLM inference on it, resulting in high latency and computation costs that limit real-time deployment. To address this, we present SFCo-Nav, an efficient zero-shot VLN framework inspired by the principle of slow-fast cognitive collaboration. SFCo-Nav integrates three key modules: 1) a slow LLM-based planner that produces a strategic chain of subgoals, each linked to an imagined object graph; 2) a fast reactive navigator for real-time object graph construction and subgoal execution; and 3) a lightweight asynchronous slow-fast bridge aligns advanced structured, attributed imagined and perceived graphs to estimate navigation confidence, triggering the slow LLM planner only when necessary. To the best of our knowledge, SFCo-Nav is the first slow-fast collaboration zero-shot VLN system supporting asynchronous LLM triggering according to the internal confidence. Evaluated on the public R2R and REVERIE benchmarks, SFCo-Nav matches or exceeds prior state-of-the-art zero-shot VLN success rates while cutting total token consumption per trajectory by over 50% and running more than 3.5 times faster. Finally, we demonstrate SFCo-Nav on a legged robot in a hotel suite, showcasing its efficiency and practicality in indoor environments.

SFCo-Nav: Efficient Zero-Shot Visual Language Navigation via Collaboration of Slow LLM and Fast Attributed Graph Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理