LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

📄 arXiv: 2510.13626v2 📥 PDF

作者: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu

分类: cs.RO, cs.CL, cs.CV

发布日期: 2025-10-15 (更新: 2025-10-24)


💡 一句话要点

LIBERO-Plus:对视觉-语言-动作模型进行深度鲁棒性分析

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 鲁棒性分析 扰动测试 脆弱性评估

📋 核心要点

  1. 现有VLA模型在理想环境下表现出色,但在真实场景中鲁棒性不足,易受各种因素干扰。
  2. 通过引入七个维度的受控扰动,系统性地评估VLA模型在不同扰动下的性能表现。
  3. 实验表明,VLA模型对相机视角和机器人初始状态等扰动高度敏感,且倾向于忽略语言指令。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作基准测试中取得了令人瞩目的成功率,然而这些结果可能掩盖了鲁棒性方面的根本弱点。我们通过在七个维度上引入受控扰动,进行系统的脆弱性分析:物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声。我们全面分析了多个最先进的模型,揭示了表面能力之下的持续脆弱性。我们的分析揭示了关键弱点:模型对扰动因素表现出极端的敏感性,包括相机视角和机器人初始状态,在适度扰动下性能从95%下降到30%以下。令人惊讶的是,模型在很大程度上对语言变化不敏感,进一步的实验表明,模型倾向于完全忽略语言指令。我们的发现挑战了高基准分数等同于真正能力的假设,并强调需要评估在真实变化下可靠性的评估实践。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在标准机器人操作基准测试中取得了高分,但这些分数是否真实反映了模型在实际应用中的能力?现有方法缺乏对模型鲁棒性的深入分析,无法揭示模型在面对真实世界复杂环境时的脆弱性。因此,该论文旨在系统性地评估VLA模型在各种扰动下的性能表现,从而发现模型的潜在弱点。

核心思路:该论文的核心思路是通过引入受控的扰动,模拟真实世界中可能出现的各种变化,从而评估VLA模型在不同扰动下的鲁棒性。通过分析模型在不同扰动下的性能变化,可以揭示模型对哪些因素敏感,以及模型在哪些方面存在不足。

技术框架:该论文构建了一个全面的评估框架,包含七个扰动维度:物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声。针对每个维度,设计了相应的扰动策略,并使用这些扰动策略对VLA模型进行测试。通过比较模型在原始环境和扰动环境下的性能,可以评估模型对该维度扰动的敏感性。

关键创新:该论文的关键创新在于其系统性的扰动分析方法。与以往的研究不同,该论文不仅考虑了单一的扰动因素,而是同时考虑了多个扰动因素,从而更全面地评估了VLA模型的鲁棒性。此外,该论文还发现了一些令人惊讶的现象,例如模型对语言指令的忽略,这为未来的研究提供了新的方向。

关键设计:在扰动策略的设计上,论文针对每个维度都进行了精心的设计。例如,在相机视角扰动方面,论文通过改变相机的俯仰角和方位角来模拟不同的视角变化。在语言指令扰动方面,论文通过改变指令的措辞和句式来模拟不同的语言表达方式。此外,论文还使用了多种评价指标来评估模型的性能,包括成功率、平均完成时间和轨迹相似度等。

📊 实验亮点

实验结果表明,VLA模型对相机视角和机器人初始状态等扰动高度敏感,在适度扰动下性能从95%下降到30%以下。此外,实验还发现模型在很大程度上忽略语言指令,即使改变指令内容,模型的行为也几乎没有变化。这些发现挑战了现有VLA模型的可靠性,并为未来的研究提供了重要的启示。

🎯 应用场景

该研究成果可应用于机器人操作系统的开发与评估,帮助开发者设计更鲁棒、更可靠的VLA模型。通过识别模型的弱点,可以针对性地改进模型的设计,提高模型在真实世界环境中的适应能力。此外,该研究也为机器人操作基准测试的设计提供了新的思路,可以设计更具挑战性的测试场景,从而更全面地评估模型的性能。

📄 摘要(原文)

Visual-Language-Action (VLA) models report impressive success rates on robotic manipulation benchmarks, yet these results may mask fundamental weaknesses in robustness. We perform a systematic vulnerability analysis by introducing controlled perturbations across seven dimensions: objects layout, camera viewpoints, robot initial states, language instructions, light conditions, background textures and sensor noise. We comprehensively analyzed multiple state-of-the-art models and revealed consistent brittleness beneath apparent competence. Our analysis exposes critical weaknesses: models exhibit extreme sensitivity to perturbation factors, including camera viewpoints and robot initial states, with performance dropping from 95% to below 30% under modest perturbations. Surprisingly, models are largely insensitive to language variations, with further experiments revealing that models tend to ignore language instructions completely. Our findings challenge the assumption that high benchmark scores equate to true competency and highlight the need for evaluation practices that assess reliability under realistic variation.