TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

作者: Jiaxing Liu, Zexi Zhang, Xiaoyan Li, Boyue Wang, Yongli Hu, Baocai Yin

分类: cs.CV, cs.RO

发布日期: 2026-03-03

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

TagaVLM：提出拓扑感知全局动作推理框架，提升视觉语言导航性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 拓扑感知 全局动作推理 视觉语言模型 空间推理

📋 核心要点

现有VLN方法难以有效利用VLM进行空间推理，因为VLM预训练任务与导航任务存在本质差异。
TagaVLM通过显式地将拓扑结构注入VLM骨干网络，增强模型对空间关系的理解和推理能力。
TagaVLM在R2R基准测试中取得了显著的性能提升，证明了其在具身空间推理方面的有效性。

📝 摘要（中文）

视觉语言导航(VLN)对大型视觉语言模型(VLM)提出了独特的挑战，因为它们存在固有的架构不匹配：VLM主要在静态、非具身视觉语言任务上进行预训练，这与导航的动态、具身和空间结构化本质根本冲突。现有基于大型模型的方法通常将丰富的视觉和空间信息转换为文本，迫使模型隐式地推断复杂的视觉拓扑关系，或限制其全局动作能力。为了弥合这一差距，我们提出了TagaVLM（拓扑感知全局动作推理），这是一个端到端框架，它将拓扑结构显式地注入到VLM骨干网络中。为了引入拓扑边缘信息，空间拓扑感知残差注意力(STAR-Att)直接将其集成到VLM的自注意力机制中，从而在保留预训练知识的同时实现内在的空间推理。为了增强拓扑节点信息，交错导航提示加强了节点级别的视觉-文本对齐。最后，通过嵌入的拓扑图，该模型能够进行全局动作推理，从而实现鲁棒的路径校正。在R2R基准测试中，TagaVLM在未见环境中实现了最先进的性能，成功率(SR)为51.09%，SPL为47.18，优于先前的工作，SR提高了3.39%，SPL提高了9.08。这表明，对于具身空间推理，对较小的开源VLM进行有针对性的增强可能比蛮力模型缩放更有效。

🔬 方法详解

问题定义：视觉语言导航(VLN)任务要求智能体根据自然语言指令在真实环境中导航。现有基于大型视觉语言模型(VLM)的方法，通常将视觉和空间信息转换为文本，迫使模型隐式地学习复杂的拓扑关系，或者限制了模型的全局动作能力。这些方法无法充分利用VLM的预训练知识，导致导航性能受限。

核心思路：TagaVLM的核心思路是将拓扑结构显式地注入到VLM骨干网络中，从而增强模型对空间关系的理解和推理能力。通过引入拓扑边缘信息和节点信息，模型能够更好地感知环境的拓扑结构，并进行全局动作推理，从而实现更准确的导航。

技术框架：TagaVLM是一个端到端框架，主要包含以下几个模块：1) 空间拓扑感知残差注意力(STAR-Att)：将拓扑边缘信息直接集成到VLM的自注意力机制中，实现内在的空间推理。2) 交错导航提示：加强节点级别的视觉-文本对齐，增强拓扑节点信息。3) 全局动作推理：利用嵌入的拓扑图，进行全局动作推理，实现鲁棒的路径校正。

关键创新：TagaVLM的关键创新在于显式地将拓扑结构注入到VLM骨干网络中。与现有方法相比，TagaVLM不需要将视觉和空间信息转换为文本，而是直接利用拓扑结构进行空间推理，从而更有效地利用了VLM的预训练知识。STAR-Att模块和交错导航提示是实现拓扑结构注入的关键技术。

关键设计：STAR-Att模块通过残差连接将拓扑边缘信息添加到自注意力机制中，从而在保留预训练知识的同时实现空间推理。交错导航提示通过将视觉和文本信息交错排列，增强了节点级别的视觉-文本对齐。全局动作推理模块利用拓扑图进行路径规划和校正，从而实现鲁棒的导航。

🖼️ 关键图片

📊 实验亮点

TagaVLM在R2R基准测试中取得了显著的性能提升。在未见环境中，TagaVLM的成功率(SR)达到了51.09%，SPL达到了47.18%，分别比现有最佳方法提高了3.39%和9.08%。这些结果表明，TagaVLM在具身空间推理方面具有显著的优势，并且能够有效地利用VLM进行导航。

🎯 应用场景

TagaVLM的研究成果可以应用于机器人导航、自动驾驶、虚拟现实等领域。通过增强模型对空间关系的理解和推理能力，可以提高机器人在复杂环境中的导航性能，实现更智能、更自主的导航系统。此外，该方法还可以应用于室内场景理解、三维重建等任务。

📄 摘要（原文）

Vision-Language Navigation (VLN) presents a unique challenge for Large Vision-Language Models (VLMs) due to their inherent architectural mismatch: VLMs are primarily pretrained on static, disembodied vision-language tasks, which fundamentally clash with the dynamic, embodied, and spatially-structured nature of navigation. Existing large-model-based methods often resort to converting rich visual and spatial information into text, forcing models to implicitly infer complex visual-topological relationships or limiting their global action capabilities. To bridge this gap, we propose TagaVLM (Topology-Aware Global Action reasoning), an end-to-end framework that explicitly injects topological structures into the VLM backbone. To introduce topological edge information, Spatial Topology Aware Residual Attention (STAR-Att) directly integrates it into the VLM's self-attention mechanism, enabling intrinsic spatial reasoning while preserving pretrained knowledge. To enhance topological node information, an Interleaved Navigation Prompt strengthens node-level visual-text alignment. Finally, with the embedded topological graph, the model is capable of global action reasoning, allowing for robust path correction. On the R2R benchmark, TagaVLM achieves state-of-the-art performance among large-model-based methods, with a Success Rate (SR) of 51.09% and SPL of 47.18 in unseen environments, outperforming prior work by 3.39% in SR and 9.08 in SPL. This demonstrates that, for embodied spatial reasoning, targeted enhancements on smaller open-source VLMs can be more effective than brute-force model scaling. The code will be released upon publication.Project page: https://apex-bjut.github.io/Taga-VLM

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理