DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models
作者: Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-10-31
备注: 16 pages, 6 figures, conference
💡 一句话要点
DeepThinkVLA通过混合注意力机制和两阶段训练提升VLA模型推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人控制 链式思考 混合注意力机制 强化学习 因果推理 序列决策
📋 核心要点
- 现有VLA模型使用单一解码器处理推理和动作,导致运动控制不佳,推理与动作间因果关系弱。
- DeepThinkVLA采用混合注意力解码器,先进行序列推理,再并行生成动作,并结合两阶段训练。
- DeepThinkVLA在LIBERO测试中达到97.0%的成功率,混合架构本身提升15.5%。
📝 摘要(中文)
本文提出DeepThinkVLA,旨在提升视觉-语言-动作(VLA)模型的推理能力,克服端到端机器人策略对数据的过度依赖。现有模型使用单一自回归解码器进行序列化的CoT推理和高维并行机器人动作,导致运动控制性能下降,且推理与动作之间缺乏强因果关系。DeepThinkVLA通过紧密集成的架构和训练策略解决此冲突。该模型采用混合注意力解码器,使用因果注意力生成序列化CoT,然后切换到双向注意力以快速并行解码动作向量。配合两阶段训练流程:首先使用监督微调(SFT)训练模型的基础推理能力,然后使用强化学习(RL)和任务成功奖励,使完整的推理-动作序列与期望结果对齐。实验结果表明,DeepThinkVLA在LIBERO基准测试中取得了97.0%的成功率,达到SOTA水平。消融实验验证了设计的有效性:混合架构本身比标准解码器性能高出15.5%,最终的RL阶段提供了关键的2%的性能提升。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在机器人控制任务中,通常采用端到端的方式,需要大量数据进行训练。为了提高模型的泛化能力和可解释性,引入了Chain-of-Thought (CoT)推理,即让模型在执行动作前先进行思考。然而,现有模型使用单一的自回归解码器同时处理序列化的CoT推理和高维、可并行的机器人动作,这导致了两个问题:一是运动控制性能下降,因为自回归解码器不适合并行生成动作;二是推理和动作之间缺乏强因果关系,模型难以学习到有效的推理策略。
核心思路:DeepThinkVLA的核心思路是解耦推理和动作的生成过程,并建立它们之间的强因果关系。具体来说,模型首先使用自回归的方式进行CoT推理,然后根据推理结果并行生成动作。为了实现这一目标,论文设计了一种混合注意力解码器,并采用两阶段训练策略。
技术框架:DeepThinkVLA的整体架构包含一个视觉编码器、一个语言编码器和一个混合注意力解码器。视觉编码器和语言编码器分别用于提取图像和文本的特征。混合注意力解码器是该模型的核心,它首先使用因果注意力机制进行CoT推理,然后切换到双向注意力机制以并行生成动作。训练过程分为两个阶段:第一阶段是监督微调(SFT),使用人工标注的CoT数据训练模型的基础推理能力;第二阶段是强化学习(RL),使用任务成功奖励来优化模型的推理和动作策略,从而建立推理和动作之间的强因果关系。
关键创新:DeepThinkVLA的关键创新在于混合注意力解码器和两阶段训练策略。混合注意力解码器能够根据任务的不同,灵活地切换注意力机制,从而更好地处理序列化的推理和并行的动作生成。两阶段训练策略能够有效地利用人工标注数据和强化学习奖励,从而提高模型的性能和泛化能力。
关键设计:混合注意力解码器包含两个注意力模块:一个因果注意力模块和一个双向注意力模块。因果注意力模块用于生成CoT推理,它只允许模型关注之前的token,从而保证推理的序列性。双向注意力模块用于生成动作,它允许模型关注所有的token,从而更好地利用上下文信息。在训练过程中,论文使用了Adam优化器,学习率设置为1e-4。强化学习阶段使用了PPO算法,奖励函数为任务成功率。
📊 实验亮点
DeepThinkVLA在LIBERO基准测试中取得了97.0%的成功率,显著优于现有方法,达到了SOTA水平。消融实验表明,混合注意力架构本身比标准解码器性能高出15.5%,最终的强化学习阶段提供了关键的2%的性能提升。这些结果验证了DeepThinkVLA的有效性,并表明混合注意力架构和两阶段训练策略是提升VLA模型推理能力的关键。
🎯 应用场景
DeepThinkVLA具有广泛的应用前景,可用于各种需要推理能力的机器人控制任务,例如家庭服务机器人、工业机器人和自动驾驶汽车。通过提高机器人的推理能力,可以使其更好地理解人类指令,更有效地完成复杂任务,并更好地适应未知环境。该研究还有助于提升VLA模型在其他领域的应用,例如智能问答和图像描述。
📄 摘要(原文)
Enabling Vision-Language-Action (VLA) models to "think before acting" via Chain-of-Thought (CoT) is a promising path to overcoming the data-hungry nature of end-to-end robot policies. However, progress is stalled by a fundamental conflict: existing models use a single autoregressive decoder for both sequential CoT reasoning and high-dimensional, parallelizable robot actions. This architectural mismatch degrades motor control and fails to forge a strong causal link between thought and action. We introduce DeepThinkVLA, which resolves this conflict through a tightly integrated architecture and training strategy. Architecturally, our hybrid-attention decoder generates sequential CoT with causal attention and then switches to bidirectional attention for fast, parallel decoding of action vectors. This design is complemented by a two-stage training pipeline: we first use Supervised Fine-Tuning (SFT) to teach the model foundational reasoning, then apply Reinforcement Learning (RL) with task-success rewards to causally align the full reasoning-action sequence with desired outcomes. This synergy leads to state-of-the-art performance, achieving a 97.0% success rate on the LIBERO benchmark. Our ablations confirm the design's effectiveness: the hybrid architecture alone outperforms standard decoders by 15.5%, and the final RL stage provides a crucial 2% boost to secure top performance.