Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

作者: Yilin Wu, Anqi Li, Tucker Hermans, Fabio Ramos, Andrea Bajcsy, Claudia P'erez-D'Arpino

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-18

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于运行时推理-行动对齐验证的策略引导方法，提升VLA模型在机器人任务中的泛化性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人指令跟随 推理行动对齐 运行时策略引导 分布外泛化 行为组合 仿真环境 视觉语言模型

📋 核心要点

现有VLA模型在分布外场景中，即使文本计划正确，执行的动作也可能偏离计划，缺乏具身CoT的忠实性。
提出一种运行时策略引导方法，通过验证推理与行动的对齐程度，从多个候选动作序列中选择最佳序列。
实验表明，该方法显著提升了VLA模型在OOD场景下的鲁棒性，并在行为组合任务上取得了高达15%的性能提升。

📝 摘要（中文）

本文针对推理视觉-语言-动作(VLA)模型在机器人指令跟随任务中，即使生成了正确的文本计划，实际执行的动作也可能无法达到预期结果的问题，提出了一个无需重新训练的运行时策略引导方法。该方法通过对VLA模型生成的多个候选动作序列进行采样，利用仿真预测其结果，并使用预训练的视觉-语言模型(VLM)选择与VLA自身文本计划最对齐的序列。通过仅执行与文本推理对齐的动作序列，将VLA模型固有的动作多样性从误差来源转化为优势，从而提高模型对语义和视觉分布外(OOD)扰动的鲁棒性，并实现新的行为组合。此外，本文还贡献了一个推理标注的LIBERO-100扩展，以及为OOD评估定制的环境变体。实验表明，该方法在行为组合任务上比现有方法提高了高达15%的性能，并且可以随着计算和数据多样性的增加而扩展。

🔬 方法详解

问题定义：论文旨在解决推理视觉-语言-动作(VLA)模型在机器人指令跟随任务中，生成的动作序列与模型自身的文本推理计划不一致的问题。现有方法，即使生成了正确的文本计划，实际执行的动作也可能无法达到预期结果，尤其是在分布外(OOD)场景中，导致任务失败。这种不一致性源于模型缺乏“具身CoT忠实性”。

核心思路：论文的核心思路是利用VLA模型自身生成的文本计划作为指导，通过对多个候选动作序列进行评估，选择与文本计划最对齐的动作序列执行。这种方法将VLA模型固有的动作多样性从误差来源转化为优势，提升了模型对OOD扰动的鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 动作序列采样：从VLA模型中采样多个候选动作序列。2) 结果预测：利用仿真环境预测每个动作序列执行后的结果。3) 对齐评估：使用预训练的视觉-语言模型(VLM)评估每个预测结果与VLA模型自身文本计划的对齐程度。4) 序列选择：选择与文本计划对齐程度最高的动作序列执行。

关键创新：最重要的技术创新点在于提出了一种无需重新训练的运行时策略引导方法，通过推理-行动对齐验证来提升VLA模型的鲁棒性。与现有方法相比，该方法不需要额外的训练数据或模型参数，可以直接应用于现有的VLA模型，并且可以利用VLA模型自身的动作多样性来提升性能。

关键设计：关键设计包括：1) 使用预训练的VLM进行对齐评估，利用VLM强大的视觉-语言理解能力。2) 通过仿真环境进行结果预测，避免了在真实环境中进行多次实验的成本。3) 采用采样的方式生成多个候选动作序列，增加了选择最佳序列的可能性。具体的参数设置、损失函数和网络结构取决于所使用的VLA模型和VLM。

📊 实验亮点

实验结果表明，该方法在行为组合任务上比现有方法提高了高达15%的性能。此外，该方法还显著提升了VLA模型在语义和视觉OOD扰动下的鲁棒性。实验还证明，该方法的性能可以随着计算和数据多样性的增加而扩展，具有良好的可扩展性。

🎯 应用场景

该研究成果可广泛应用于机器人指令跟随、自动化任务执行等领域。通过提高机器人对指令的理解和执行精度，可以实现更智能、更可靠的机器人服务，例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。该方法还可用于提升机器人在未知环境中的适应能力，使其能够更好地完成复杂任务。

📄 摘要（原文）

Reasoning Vision Language Action (VLA) models improve robotic instruction-following by generating step-by-step textual plans before low-level actions, an approach inspired by Chain-of-Thought (CoT) reasoning in language models. Yet even with a correct textual plan, the generated actions can still miss the intended outcomes in the plan, especially in out-of-distribution (OOD) scenarios. We formalize this phenomenon as a lack of embodied CoT faithfulness, and introduce a training-free, runtime policy steering method for reasoning-action alignment. Given a reasoning VLA's intermediate textual plan, our framework samples multiple candidate action sequences from the same model, predicts their outcomes via simulation, and uses a pre-trained Vision-Language Model (VLM) to select the sequence whose outcome best aligns with the VLA's own textual plan. Only executing action sequences that align with the textual reasoning turns our base VLA's natural action diversity from a source of error into a strength, boosting robustness to semantic and visual OOD perturbations and enabling novel behavior composition without costly re-training. We also contribute a reasoning-annotated extension of LIBERO-100, environment variations tailored for OOD evaluation, and demonstrate up to 15% performance gain over prior work on behavior composition tasks and scales with compute and data diversity. Project Website at: https://yilin-wu98.github.io/steering-reasoning-vla/

Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册