Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration
作者: Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-03-06
💡 一句话要点
提出IGAR,通过无训练注意力重校准解决VLA模型中的语言盲区问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人操作 语言盲区 注意力重校准 分布外泛化
📋 核心要点
- VLA模型在OOD指令下易受视觉先验影响,忽略指令语义,导致“语言盲区”问题。
- 提出IGAR,一种无需训练的注意力重校准方法,通过调整注意力分布来增强语言指令的影响。
- 实验表明,IGAR能有效减少OOD指令下的错误执行,并在真实机器人上验证了其有效性。
📝 摘要(中文)
本文揭示了Vision-Language-Action (VLA) 模型在分布外 (OOD) 指令下存在的一个关键失效模式:即使语言指令与场景矛盾,VLA策略仍然会执行视觉上合理的动作,即“语言盲区”。为了系统分析此问题,本文构建了ICBench,一个基于LIBERO数据集的诊断基准,通过注入受控的OOD指令矛盾来探测语言-动作耦合,同时保持视觉环境不变。在Pi0、Pi0.5和OpenVLA OFT三个代表性VLA架构上的评估表明,这些模型经常在逻辑上不可能的指令下成功完成任务,揭示了动作生成中强烈的视觉偏见。为了缓解这个问题,本文提出了一种无训练的推理时机制:指令引导的注意力重校准 (IGAR),它重新平衡注意力分布以恢复语言指令的影响。IGAR无需重新训练或修改架构,可以直接应用于现有的VLA模型。在30个LIBERO任务上的实验表明,IGAR显著减少了OOD矛盾指令下的错误执行,同时保留了基线任务的性能。此外,还在真实的Franka机器人手臂上验证了该方法,IGAR有效地防止了由不一致指令触发的操作。
🔬 方法详解
问题定义:VLA模型在处理机器人操作任务时,面临着一个关键问题:当接收到与视觉场景不一致的语言指令(即OOD指令)时,模型倾向于忽略指令的语义,而是根据视觉先验执行动作,导致“语言盲区”。现有方法未能有效解决VLA模型对视觉信息的过度依赖,使得模型在面对不合逻辑的指令时仍然执行视觉上合理的动作,这严重影响了VLA模型的可靠性和泛化能力。
核心思路:IGAR的核心思路是在推理阶段,通过重新校准注意力分布来增强语言指令的影响力,从而克服VLA模型对视觉信息的过度依赖。其基本思想是,当语言指令与视觉信息冲突时,应该更加关注语言指令,减少视觉信息的影响。通过调整注意力权重,使得模型在生成动作时更加依赖于语言指令的语义,从而避免执行与指令矛盾的动作。
技术框架:IGAR是一种推理时干预方法,无需修改模型架构或重新训练。其主要流程包括:1) 获取VLA模型的原始注意力分布;2) 根据语言指令,计算一个指令相关的注意力权重;3) 将原始注意力分布与指令相关的注意力权重进行融合,得到重校准后的注意力分布;4) 使用重校准后的注意力分布生成动作。该方法可以无缝集成到现有的VLA模型中,无需额外的训练成本。
关键创新:IGAR最关键的创新在于其无训练的特性,以及指令引导的注意力重校准机制。与需要重新训练或微调的方法不同,IGAR可以直接应用于现有的VLA模型,具有很强的实用性和通用性。通过指令引导的注意力重校准,IGAR能够有效地平衡语言指令和视觉信息的影响,从而提高VLA模型在OOD指令下的鲁棒性。
关键设计:IGAR的关键设计在于如何计算指令相关的注意力权重以及如何将该权重与原始注意力分布进行融合。具体来说,论文使用语言编码器提取指令的语义特征,然后使用一个简单的注意力机制(例如点积注意力)计算指令与视觉特征之间的相关性,得到指令相关的注意力权重。在融合阶段,论文使用一个可调节的参数来控制指令相关注意力权重的贡献,从而平衡语言指令和视觉信息的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IGAR能够显著减少VLA模型在OOD矛盾指令下的错误执行,同时保持基线任务的性能。在LIBERO数据集的30个任务上,IGAR有效地提高了模型的准确率和鲁棒性。此外,在真实的Franka机器人手臂上的实验也验证了IGAR的有效性,IGAR能够防止机器人执行与不一致指令相悖的操作。
🎯 应用场景
该研究成果可广泛应用于机器人操作、自动驾驶、智能助手等领域。通过提高VLA模型在复杂和不确定环境下的可靠性,IGAR能够使机器人更好地理解人类指令,并执行符合人类意图的动作。这对于提升人机协作效率、降低安全风险具有重要意义,并为通用机器人策略的发展奠定基础。
📄 摘要(原文)
Vision-Language-Action (VLA) models enable robots to perform manipulation tasks directly from natural language instructions and are increasingly viewed as a foundation for generalist robotic policies. However, their reliability under Out-of-Distribution (OOD) instructions remains underexplored. In this paper, we reveal a critical failure mode in which VLA policies continue executing visually plausible actions even when the language instruction contradicts the scene. We refer to this phenomenon as linguistic blindness, where VLA policies prioritize visual priors over instruction semantics during action generation. To systematically analyze this issue, we introduce ICBench, a diagnostic benchmark constructed from the LIBERO dataset that probes language-action coupling by injecting controlled OOD instruction contradictions while keeping the visual environment unchanged. Evaluations on three representative VLA architectures, including Pi0, Pi0.5 and OpenVLA OFT, show that these models frequently succeed at tasks despite logically impossible instructions, revealing a strong visual bias in action generation. To mitigate this issue, we propose Instruction-Guided Attention Recalibration (IGAR), a train-free inference-time mechanism that rebalances attention distributions to restore the influence of language instructions. IGAR operates without retraining or architectural modification and can be directly applied to existing VLA models. Experiments across 30 LIBERO tasks demonstrate that IGAR substantially reduces erroneous execution under OOD contradictory instructions while preserving baseline task performance. We additionally validate the approach on a real Franka robotic arm, where IGAR effectively prevents manipulation triggered by inconsistent instructions.