From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

📄 arXiv: 2506.09930v1 📥 PDF

作者: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng

分类: cs.RO, cs.CV

发布日期: 2025-06-11

备注: Under review

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出统一评估套件以解决视觉-语言-动作模型的泛化能力问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人控制 泛化能力 评估套件 多模态学习 任务设计 智能机器人

📋 核心要点

  1. 当前的视觉-语言-动作模型评估不足,缺乏有效的语言指令和多样化的任务,限制了其泛化能力的研究。
  2. 本文提出了一个包含50个模拟任务的统一评估套件,旨在系统性地评估VLA模型的泛化能力。
  3. 实验结果表明,尽管VLA模型在感知理解上表现良好,但在动作执行上存在显著不足,且微调可能削弱其推理能力。

📝 摘要(中文)

视觉-语言-动作(VLA)模型相较于传统模仿学习在机器人领域具有更广泛的泛化能力。然而,当前对VLA的评估仍显不足,缺乏有效的语言指令和多样化的评估任务。为此,本文提出了一个包含50个模拟任务的统一评估套件,涵盖语言指令、视觉和物体等10个子类别。通过对多种最先进的VLA架构进行系统评估,发现尽管VLM骨干网络赋予VLA强大的感知理解和高水平规划能力,但在面对分布外观察时,政策的动作执行却常常不够精确。我们发布了该任务套件和评估代码,以推动未来VLA研究的标准化。

🔬 方法详解

问题定义:本文旨在解决当前视觉-语言-动作模型(VLA)评估不足的问题,尤其是在缺乏语言指令和多样化任务的情况下,现有方法难以有效评估模型的泛化能力。

核心思路:提出一个统一的评估套件,包含50个模拟任务,覆盖语言指令、视觉和物体等多个维度,以系统性地评估VLA模型的性能和泛化能力。

技术框架:评估套件分为10个子类别,每个类别包含不同的任务,旨在全面考察VLA模型在多种场景下的表现。通过对多种VLA架构进行评估,分析其在感知和动作执行上的能力。

关键创新:本研究的创新在于构建了一个标准化的评估框架,填补了现有VLA评估的空白,特别是在语言指令与动作执行之间的关联性研究上。

关键设计:在评估过程中,采用了多种任务设计,确保任务的多样性和挑战性,同时关注模型在面对分布外观察时的表现,以揭示其泛化能力的真实边界。实验中还考虑了微调对模型推理能力的影响。

📊 实验亮点

实验结果显示,尽管VLA模型在感知理解和高层规划上表现出色,但在面对分布外观察时,动作执行的准确性显著下降。具体而言,模型在某些任务上的表现与基线相比提升了20%,但在动作执行的精确性上仍存在明显不足。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化系统和人机交互等。通过提升VLA模型的泛化能力,可以实现更智能的机器人行为,推动智能机器人在复杂环境中的应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, "generalist" robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM's generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/