VLA Model Post-Training via Action-Chunked PPO and Self Behavior Cloning
作者: Si-Cheng Wang, Tian-Yu Xiang, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Ao-Qun Jin, Zeng-Guang Hou
分类: cs.RO
发布日期: 2025-09-30
💡 一句话要点
提出基于动作块PPO和自行为克隆的VLA模型后训练方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 强化学习 近端策略优化 行为克隆 动作块
📋 核心要点
- VLA模型后训练面临稀疏奖励和训练不稳定的问题,限制了实际应用。
- 提出动作块PPO和自行为克隆方法,提高策略的时间一致性和训练稳定性。
- 在MetaWorld基准测试中,该方法显著提升了VLA模型的成功率和效率。
📝 摘要(中文)
本文提出了一种基于强化学习的视觉-语言-动作(VLA)模型后训练方法,旨在解决稀疏奖励和训练不稳定等实际部署中的挑战。该方法引入了基于近端策略优化(PPO)的动作块,并结合使用自收集演示的行为克隆。将连续动作聚合为块可以提高策略的时间一致性和信息反馈的密度。此外,应用辅助行为克隆损失,并使用动态更新的演示缓冲区,该缓冲区在训练期间不断收集高质量的任务试验。在线调整动作块PPO目标和自行为克隆辅助损失之间的相对权重,以稳定后训练过程。在MetaWorld基准上的实验表明,该方法优于监督微调,实现了较高的成功率(0.93)和较少的成功步数(42.17)。这些结果证明了强化学习在VLA后训练中的可行性,并为下游VLA应用奠定了基础。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)模型在后训练阶段,由于强化学习环境中的稀疏奖励和训练过程的不稳定性,难以获得令人满意的性能。传统的强化学习方法难以有效探索环境,导致训练效率低下,模型泛化能力不足。
核心思路:本文的核心思路是通过引入动作块(Action Chunk)来提高策略的时间一致性,并利用自行为克隆(Self Behavior Cloning)来稳定训练过程。动作块将连续的动作聚合在一起,从而提供更密集和有意义的反馈信号。自行为克隆则通过模仿自身在训练过程中产生的高质量行为,来引导策略学习,避免陷入局部最优。
技术框架:该方法的技术框架主要包括三个部分:动作块PPO、自行为克隆和动态权重调整。首先,使用动作块PPO作为主要的强化学习算法,对VLA模型进行训练。其次,引入自行为克隆作为辅助损失,利用模型自身产生的成功轨迹来指导策略学习。最后,通过动态调整动作块PPO损失和自行为克隆损失之间的权重,来平衡探索和利用,从而稳定训练过程。
关键创新:该方法最重要的技术创新点在于将动作块和自行为克隆相结合,并动态调整两者之间的权重。动作块提高了策略的时间一致性,使得强化学习算法更容易学习到有效的策略。自行为克隆则利用模型自身产生的成功经验,避免了从零开始探索的困难。动态权重调整则保证了训练过程的稳定性和效率。
关键设计:动作块的大小是一个关键参数,需要根据具体任务进行调整。自行为克隆的演示缓冲区需要定期更新,以保证其中包含高质量的轨迹。动态权重调整可以采用多种策略,例如根据训练过程中的奖励变化或策略熵的变化来调整权重。
📊 实验亮点
实验结果表明,该方法在MetaWorld基准测试中取得了显著的性能提升。相较于监督微调,该方法实现了0.93的成功率,并将成功所需的步数减少到42.17。这些结果表明,该方法能够有效地解决VLA模型后训练中的稀疏奖励和训练不稳定问题,并显著提升模型的性能。
🎯 应用场景
该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过强化学习对VLA模型进行后训练,可以提升模型在复杂环境中的决策能力和泛化性能,使其能够更好地理解视觉和语言信息,并执行相应的动作。这有助于实现更智能、更自主的智能体,从而在实际应用中发挥更大的作用。
📄 摘要(原文)
Reinforcement learning (RL) is a promising avenue for post-training vision-language-action (VLA) models, but practical deployment is hindered by sparse rewards and unstable training. This work mitigates these challenges by introducing an action chunk based on proximal policy optimization (PPO) with behavior cloning using self-collected demonstrations. Aggregating consecutive actions into chunks improves the temporal consistency of the policy and the density of informative feedback. In addition, an auxiliary behavior cloning loss is applied with a dynamically updated demonstration buffer that continually collects high-quality task trials during training. The relative weight between the action-chunked PPO objective and the self behavior clone auxiliary loss is adapted online to stabilize the post-training process. Experiments on the MetaWorld benchmark indicate improved performance over supervised fine-tuning, achieving a high success rate (0.93) and few steps to success (42.17). These results demonstrate the viability of RL for VLA post-training and help lay the groundwork for downstream VLA applications.