VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

📄 arXiv: 2510.20818v1 📥 PDF

作者: Mateo Guaman Castro, Sidharth Rajagopal, Daniel Gorbatov, Matt Schmittle, Rohan Baijal, Octi Zhang, Rosario Scalise, Sidharth Talia, Emma Romig, Celso de Melo, Byron Boots, Abhishek Gupta

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-23


💡 一句话要点

提出VAMOS以解决机器人导航中的环境适应性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人导航 视觉-语言-行动模型 多样化环境 物理约束 自主机器人 智能交通 路径生成 适应性模型

📋 核心要点

  1. 现有方法在多样化环境中学习导航策略时,难以适应不同机器人的物理约束,导致成功率低。
  2. VAMOS通过分层设计,将语义规划与实体基础解耦,使得通用规划器和专门适应性模型能够协同工作。
  3. 实验结果显示,VAMOS在室内和复杂户外导航中成功率提高了三倍,显著优于现有方法。

📝 摘要(中文)

机器人导航的一个基本挑战在于学习能够在多样化环境中泛化的策略,同时符合特定实体的独特物理约束和能力。我们提出了VAMOS,一个分层的视觉-语言-行动模型,解耦了语义规划与实体基础。通用规划器从多样的开放世界数据中学习,而专门的适应性模型则在安全、低成本的仿真中学习机器人的物理约束和能力。通过精心设计的接口,高层规划器可以直接在图像空间中提出候选路径,适应性模型随后对其进行评估和重新排序。我们的实验证明,VAMOS在室内和复杂户外导航中均实现了比最先进的模型驱动和端到端学习方法更高的成功率。

🔬 方法详解

问题定义:本论文旨在解决机器人在多样化环境中导航时的适应性问题。现有方法往往无法有效考虑不同机器人实体的物理约束,导致导航策略的成功率低下。

核心思路:VAMOS的核心思路是通过分层结构将语义规划与实体基础解耦。通用规划器从多样化的数据中学习,而专门的适应性模型则在仿真中学习机器人的物理能力,从而提高导航的成功率。

技术框架:VAMOS的整体架构包括两个主要模块:高层规划器和适应性模型。高层规划器负责在图像空间中生成候选路径,适应性模型则对这些路径进行评估和重新排序,以确保其物理可行性。

关键创新:VAMOS的最重要创新在于其分层设计,使得一个高层规划器能够在不同类型的机器人之间进行跨实体导航。这种设计使得模型能够适应不同的物理约束,提升了导航的灵活性和可靠性。

关键设计:在模型设计中,关键参数包括高层规划器的路径生成算法和适应性模型的评估标准。此外,损失函数的设计也考虑了物理约束,以确保生成的路径在实际操作中是可行的。

📊 实验亮点

实验结果表明,VAMOS在室内和复杂户外导航中成功率提高了三倍,显著优于现有的模型驱动和端到端学习方法。这一成果验证了分层设计的有效性,并展示了跨实体导航的潜力。

🎯 应用场景

VAMOS的研究成果在多个领域具有潜在应用价值,包括自主机器人、智能交通系统和复杂环境下的无人机导航等。通过提高机器人在多样化环境中的适应能力,该模型能够显著提升机器人在实际应用中的可靠性和效率,推动智能机器人技术的发展。

📄 摘要(原文)

A fundamental challenge in robot navigation lies in learning policies that generalize across diverse environments while conforming to the unique physical constraints and capabilities of a specific embodiment (e.g., quadrupeds can walk up stairs, but rovers cannot). We propose VAMOS, a hierarchical VLA that decouples semantic planning from embodiment grounding: a generalist planner learns from diverse, open-world data, while a specialist affordance model learns the robot's physical constraints and capabilities in safe, low-cost simulation. We enabled this separation by carefully designing an interface that lets a high-level planner propose candidate paths directly in image space that the affordance model then evaluates and re-ranks. Our real-world experiments show that VAMOS achieves higher success rates in both indoor and complex outdoor navigation than state-of-the-art model-based and end-to-end learning methods. We also show that our hierarchical design enables cross-embodied navigation across legged and wheeled robots and is easily steerable using natural language. Real-world ablations confirm that the specialist model is key to embodiment grounding, enabling a single high-level planner to be deployed across physically distinct wheeled and legged robots. Finally, this model significantly enhances single-robot reliability, achieving 3X higher success rates by rejecting physically infeasible plans. Website: https://vamos-vla.github.io/