Mechanistic interpretability for steering vision-language-action models
作者: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
分类: cs.RO, cs.LG
发布日期: 2025-08-30
备注: CoRL 2025. Project website: https://vla-mech-interp.github.io/
💡 一句话要点
提出机制可解释性框架以引导视觉-语言-动作模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作 机制可解释性 激活引导 机器人控制 智能体适应性
📋 核心要点
- 现有的视觉-语言-动作模型在解释和引导方面存在显著不足,缺乏对模型内部机制的深入理解。
- 本文提出了一种新的框架,通过内部表示对VLA进行解释和引导,允许在推理时直接干预模型行为。
- 在实验中,该方法在两个开源VLA上实现了零-shot行为控制,展示了其在模拟和物理环境中的有效性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型是实现通用嵌入式智能体的有前景的路径,能够快速适应新任务、模态和环境。然而,目前对VLA的解释和引导方法远不及经典机器人管道,缺乏对运动学、动力学和控制的明确模型,这在现实机器人中部署学习策略时构成了主要挑战。本文提出了第一个通过内部表示解释和引导VLA的框架,使得在推理时能够直接干预模型行为。我们将前馈激活投影到令牌嵌入基上,识别出与动作选择因果相关的稀疏语义方向,如速度和方向。基于这些发现,我们引入了一种通用的激活引导方法,能够实时调节行为,无需微调、奖励信号或环境交互。我们在两个开源VLA(Pi0和OpenVLA)上评估了该方法,并在模拟环境(LIBERO)和物理机器人(UR5)上展示了零-shot行为控制。
🔬 方法详解
问题定义:本文旨在解决视觉-语言-动作模型(VLA)在解释和引导方面的不足,现有方法缺乏对模型内部机制的深入理解,导致在实际机器人应用中的鲁棒性和可解释性不足。
核心思路:论文的核心思路是通过对VLA的内部表示进行分析,识别出与动作选择相关的稀疏语义方向,从而实现对模型行为的实时调节。这样的设计使得在不需要微调或额外奖励信号的情况下,能够有效引导模型。
技术框架:整体架构包括对Transformer层的前馈激活进行投影,识别出与动作选择相关的语义方向,并基于这些方向设计激活引导方法。主要模块包括激活投影、语义方向识别和行为调节。
关键创新:最重要的技术创新在于首次将机制可解释性引入VLA模型,通过内部表示的分析实现对模型行为的直接干预。这一方法与传统的基于奖励信号的引导方法本质上不同,提供了更高的透明度和可控性。
关键设计:在技术细节上,采用了特定的投影算法将激活映射到令牌嵌入基上,识别出稀疏的语义方向。此外,激活引导方法的设计确保了实时性,能够在不影响模型稳定性的情况下进行行为调节。
📊 实验亮点
实验结果表明,该激活引导方法在两个开源VLA(Pi0和OpenVLA)上实现了零-shot行为控制。在模拟环境LIBERO和物理机器人UR5上均表现出色,展示了该方法的有效性和实时性,为VLA模型的实际应用提供了新的可能性。
🎯 应用场景
该研究的潜在应用领域包括机器人控制、智能助手和自动化系统等。通过提供对VLA模型的可解释性和可控性,能够在复杂环境中实现更高效的任务执行,提升机器人在动态场景中的适应能力和决策质量。未来,该方法可能会推动更广泛的智能体应用,促进人机协作的发展。
📄 摘要(原文)
Vision-Language-Action (VLA) models are a promising path to realizing generalist embodied agents that can quickly adapt to new tasks, modalities, and environments. However, methods for interpreting and steering VLAs fall far short of classical robotics pipelines, which are grounded in explicit models of kinematics, dynamics, and control. This lack of mechanistic insight is a central challenge for deploying learned policies in real-world robotics, where robustness and explainability are critical. Motivated by advances in mechanistic interpretability for large language models, we introduce the first framework for interpreting and steering VLAs via their internal representations, enabling direct intervention in model behavior at inference time. We project feedforward activations within transformer layers onto the token embedding basis, identifying sparse semantic directions - such as speed and direction - that are causally linked to action selection. Leveraging these findings, we introduce a general-purpose activation steering method that modulates behavior in real time, without fine-tuning, reward signals, or environment interaction. We evaluate this method on two recent open-source VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that interpretable components of embodied VLAs can be systematically harnessed for control - establishing a new paradigm for transparent and steerable foundation models in robotics.