Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations

📄 arXiv: 2509.18953v1 📥 PDF

作者: Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao

分类: cs.RO, cs.AI

发布日期: 2025-09-23


💡 一句话要点

Eva-VLA:评估视觉-语言-动作模型在真实物理变化下的鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 鲁棒性评估 物理变化 黑盒优化

📋 核心要点

  1. 现有VLA模型在真实物理变化下的鲁棒性不足,难以应对实际部署中的复杂环境。
  2. 提出Eva-VLA框架,将离散物理变化转化为连续优化问题,系统评估VLA模型的鲁棒性。
  3. 实验表明,VLA模型在物体变换、光照变化和对抗补丁下表现出显著的脆弱性,失败率高达97.8%。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已成为机器人操作的有前景的解决方案,但它们在真实物理变化下的鲁棒性仍未得到充分探索。为了弥补这一差距,我们提出了Eva-VLA,这是第一个统一的框架,通过将离散的物理变化转化为连续的优化问题,系统地评估VLA模型的鲁棒性。然而,全面评估VLA的鲁棒性面临两个关键挑战:(1)如何在保持评估可重复性的同时,系统地表征真实部署中遇到的各种物理变化?(2)如何在不产生过高的真实数据收集成本的情况下,高效地发现最坏情况?为了解决第一个挑战,我们将真实世界的变化分解为三个关键领域:影响空间推理的物体3D变换、挑战视觉感知的照明变化以及扰乱场景理解的对抗性补丁。对于第二个挑战,我们引入了一个连续的黑盒优化框架,将离散的物理变化转化为参数优化,从而能够系统地探索最坏情况。在多个基准测试中对最先进的OpenVLA模型进行的大量实验揭示了令人震惊的漏洞:所有变化类型都会触发超过60%的失败率,其中物体变换在长时程任务中导致高达97.8%的失败。我们的发现揭示了受控实验室成功与不可预测的部署准备之间的关键差距,而Eva-VLA框架为加强基于VLA的机器人操作模型以应对真实部署挑战提供了一条实用途径。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在受控实验室环境中表现良好,但在真实世界部署中,由于各种物理变化(如物体姿态变化、光照变化、对抗性攻击等)的影响,其性能会显著下降。现有方法缺乏系统性的评估框架,难以衡量VLA模型在这些变化下的鲁棒性,并且难以发现导致模型失效的最坏情况。

核心思路:论文的核心思路是将离散的物理变化转化为连续的优化问题。通过这种方式,可以使用优化算法来搜索导致VLA模型性能下降的最坏情况。这种方法避免了直接在真实世界中进行大量实验的需要,从而降低了评估成本。

技术框架:Eva-VLA框架包含以下几个主要模块: 1. 物理变化建模:将真实世界的物理变化分解为三个关键领域:物体3D变换、照明变化和对抗性补丁。 2. 连续优化:将离散的物理变化参数化,并将其转化为连续的优化问题。目标是找到使VLA模型性能最差的参数组合。 3. 评估指标:使用一系列评估指标来衡量VLA模型在不同物理变化下的鲁棒性,例如成功率、任务完成时间等。 4. 黑盒优化算法:采用黑盒优化算法(例如,进化策略)来搜索最优的物理变化参数,因为VLA模型的内部结构通常是未知的。

关键创新:该论文的关键创新在于提出了一个统一的框架,能够系统地评估VLA模型在真实物理变化下的鲁棒性。通过将离散的物理变化转化为连续的优化问题,可以高效地发现导致模型失效的最坏情况。此外,该框架还考虑了多种类型的物理变化,包括物体变换、光照变化和对抗性补丁,从而更全面地评估了VLA模型的鲁棒性。

关键设计:在物理变化建模方面,论文对每种变化类型都进行了参数化。例如,物体3D变换使用旋转和平移参数来表示,照明变化使用光照强度和方向参数来表示,对抗性补丁使用位置、大小和颜色参数来表示。在优化算法方面,论文采用了黑盒优化算法,因为它不需要VLA模型的梯度信息。在评估指标方面,论文使用了成功率、任务完成时间等指标来衡量VLA模型的性能。

📊 实验亮点

实验结果表明,即使是最先进的OpenVLA模型在面对真实物理变化时也表现出显著的脆弱性。例如,物体变换导致长时程任务的失败率高达97.8%,所有变化类型都会触发超过60%的失败率。这些结果强调了现有VLA模型在真实世界部署中的局限性,并突出了Eva-VLA框架在评估和改进VLA模型鲁棒性方面的重要性。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶等领域,提高VLA模型在真实复杂环境中的可靠性和安全性。通过Eva-VLA框架,可以系统地评估和改进VLA模型的鲁棒性,使其更好地适应实际部署中的各种物理变化,从而推动机器人技术的广泛应用。

📄 摘要(原文)

Vision-Language-Action (VLA) models have emerged as promising solutions for robotic manipulation, yet their robustness to real-world physical variations remains critically underexplored. To bridge this gap, we propose Eva-VLA, the first unified framework that systematically evaluates the robustness of VLA models by transforming discrete physical variations into continuous optimization problems. However, comprehensively assessing VLA robustness presents two key challenges: (1) how to systematically characterize diverse physical variations encountered in real-world deployments while maintaining evaluation reproducibility, and (2) how to discover worst-case scenarios without prohibitive real-world data collection costs efficiently. To address the first challenge, we decompose real-world variations into three critical domains: object 3D transformations that affect spatial reasoning, illumination variations that challenge visual perception, and adversarial patches that disrupt scene understanding. For the second challenge, we introduce a continuous black-box optimization framework that transforms discrete physical variations into parameter optimization, enabling systematic exploration of worst-case scenarios. Extensive experiments on state-of-the-art OpenVLA models across multiple benchmarks reveal alarming vulnerabilities: all variation types trigger failure rates exceeding 60%, with object transformations causing up to 97.8% failure in long-horizon tasks. Our findings expose critical gaps between controlled laboratory success and unpredictable deployment readiness, while the Eva-VLA framework provides a practical pathway for hardening VLA-based robotic manipulation models against real-world deployment challenges.