DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

作者: Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-10-31

备注: 16 pages, 6 figures, conference

💡 一句话要点

DeepThinkVLA通过混合注意力机制和两阶段训练提升VLA模型推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人控制 链式思考 混合注意力机制 强化学习 因果推理 序列决策

📋 核心要点

现有VLA模型使用单一解码器处理推理和动作，导致运动控制不佳，推理与动作间因果关系弱。
DeepThinkVLA采用混合注意力解码器，先进行序列推理，再并行生成动作，并结合两阶段训练。
DeepThinkVLA在LIBERO测试中达到97.0%的成功率，混合架构本身提升15.5%。

📝 摘要（中文）

本文提出DeepThinkVLA，旨在提升视觉-语言-动作(VLA)模型的推理能力，克服端到端机器人策略对数据的过度依赖。现有模型使用单一自回归解码器进行序列化的CoT推理和高维并行机器人动作，导致运动控制性能下降，且推理与动作之间缺乏强因果关系。DeepThinkVLA通过紧密集成的架构和训练策略解决此冲突。该模型采用混合注意力解码器，使用因果注意力生成序列化CoT，然后切换到双向注意力以快速并行解码动作向量。配合两阶段训练流程：首先使用监督微调(SFT)训练模型的基础推理能力，然后使用强化学习(RL)和任务成功奖励，使完整的推理-动作序列与期望结果对齐。实验结果表明，DeepThinkVLA在LIBERO基准测试中取得了97.0%的成功率，达到SOTA水平。消融实验验证了设计的有效性：混合架构本身比标准解码器性能高出15.5%，最终的RL阶段提供了关键的2%的性能提升。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在机器人控制任务中，通常采用端到端的方式，需要大量数据进行训练。为了提高模型的泛化能力和可解释性，引入了Chain-of-Thought (CoT)推理，即让模型在执行动作前先进行思考。然而，现有模型使用单一的自回归解码器同时处理序列化的CoT推理和高维、可并行的机器人动作，这导致了两个问题：一是运动控制性能下降，因为自回归解码器不适合并行生成动作；二是推理和动作之间缺乏强因果关系，模型难以学习到有效的推理策略。

核心思路：DeepThinkVLA的核心思路是解耦推理和动作的生成过程，并建立它们之间的强因果关系。具体来说，模型首先使用自回归的方式进行CoT推理，然后根据推理结果并行生成动作。为了实现这一目标，论文设计了一种混合注意力解码器，并采用两阶段训练策略。

技术框架：DeepThinkVLA的整体架构包含一个视觉编码器、一个语言编码器和一个混合注意力解码器。视觉编码器和语言编码器分别用于提取图像和文本的特征。混合注意力解码器是该模型的核心，它首先使用因果注意力机制进行CoT推理，然后切换到双向注意力机制以并行生成动作。训练过程分为两个阶段：第一阶段是监督微调(SFT)，使用人工标注的CoT数据训练模型的基础推理能力；第二阶段是强化学习(RL)，使用任务成功奖励来优化模型的推理和动作策略，从而建立推理和动作之间的强因果关系。

关键创新：DeepThinkVLA的关键创新在于混合注意力解码器和两阶段训练策略。混合注意力解码器能够根据任务的不同，灵活地切换注意力机制，从而更好地处理序列化的推理和并行的动作生成。两阶段训练策略能够有效地利用人工标注数据和强化学习奖励，从而提高模型的性能和泛化能力。

关键设计：混合注意力解码器包含两个注意力模块：一个因果注意力模块和一个双向注意力模块。因果注意力模块用于生成CoT推理，它只允许模型关注之前的token，从而保证推理的序列性。双向注意力模块用于生成动作，它允许模型关注所有的token，从而更好地利用上下文信息。在训练过程中，论文使用了Adam优化器，学习率设置为1e-4。强化学习阶段使用了PPO算法，奖励函数为任务成功率。

📊 实验亮点

DeepThinkVLA在LIBERO基准测试中取得了97.0%的成功率，显著优于现有方法，达到了SOTA水平。消融实验表明，混合注意力架构本身比标准解码器性能高出15.5%，最终的强化学习阶段提供了关键的2%的性能提升。这些结果验证了DeepThinkVLA的有效性，并表明混合注意力架构和两阶段训练策略是提升VLA模型推理能力的关键。

🎯 应用场景

DeepThinkVLA具有广泛的应用前景，可用于各种需要推理能力的机器人控制任务，例如家庭服务机器人、工业机器人和自动驾驶汽车。通过提高机器人的推理能力，可以使其更好地理解人类指令，更有效地完成复杂任务，并更好地适应未知环境。该研究还有助于提升VLA模型在其他领域的应用，例如智能问答和图像描述。

📄 摘要（原文）

Enabling Vision-Language-Action (VLA) models to "think before acting" via Chain-of-Thought (CoT) is a promising path to overcoming the data-hungry nature of end-to-end robot policies. However, progress is stalled by a fundamental conflict: existing models use a single autoregressive decoder for both sequential CoT reasoning and high-dimensional, parallelizable robot actions. This architectural mismatch degrades motor control and fails to forge a strong causal link between thought and action. We introduce DeepThinkVLA, which resolves this conflict through a tightly integrated architecture and training strategy. Architecturally, our hybrid-attention decoder generates sequential CoT with causal attention and then switches to bidirectional attention for fast, parallel decoding of action vectors. This design is complemented by a two-stage training pipeline: we first use Supervised Fine-Tuning (SFT) to teach the model foundational reasoning, then apply Reinforcement Learning (RL) with task-success rewards to causally align the full reasoning-action sequence with desired outcomes. This synergy leads to state-of-the-art performance, achieving a 97.0% success rate on the LIBERO benchmark. Our ablations confirm the design's effectiveness: the hybrid architecture alone outperforms standard decoders by 15.5%, and the final RL stage provides a crucial 2% boost to secure top performance.

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册