WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
作者: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
分类: cs.RO, cs.AI
发布日期: 2025-11-12
备注: project website: https://wm-po.github.io
💡 一句话要点
提出WMPO,用于视觉-语言-动作模型的基于世界模型的策略优化
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言动作模型 世界模型 强化学习 策略优化 机器人操作
📋 核心要点
- VLA模型依赖专家数据,难以从失败中学习和自我纠正,限制了其在复杂机器人任务中的应用。
- WMPO通过构建像素级世界模型,使智能体在虚拟环境中进行策略优化,避免了与真实环境的直接交互。
- 实验表明,WMPO显著提升了样本效率和整体性能,并展现出自我纠正、泛化和终身学习能力。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在通用机器人操作方面展现出强大的潜力,但它们对专家演示的依赖限制了其从失败中学习和执行自我纠正的能力。强化学习(RL)通过与物理环境的自我改进交互来解决这些问题,但却面临着真实机器人上的高样本复杂度。我们引入了基于世界模型的策略优化(WMPO),这是一个用于在线VLA RL的原则性框架,无需与真实环境交互。与广泛使用的潜在世界模型不同,WMPO专注于像素级预测,使“想象”的轨迹与使用网络规模图像预训练的VLA特征对齐。至关重要的是,WMPO使策略能够执行在线GRPO,从而提供比常用的离线方法更强的性能。在模拟和真实机器人环境中的大量实验表明,WMPO (i)显著提高了样本效率,(ii)实现了更强的整体性能,(iii)表现出诸如自我纠正等涌现行为,以及(iv)展示了强大的泛化和终身学习能力。
🔬 方法详解
问题定义:VLA模型虽然在机器人操作领域展现出潜力,但过度依赖专家演示数据,导致其难以从失败经验中学习,缺乏自我纠正能力。强化学习虽然可以通过与环境交互来学习,但样本效率低,在真实机器人上应用成本高昂。因此,如何在降低样本复杂度的同时,提升VLA模型的学习能力,是本文要解决的核心问题。
核心思路:WMPO的核心思路是构建一个基于像素的世界模型,该模型能够预测在给定动作序列下,环境的未来状态(像素)。通过在虚拟环境中进行策略优化,智能体可以在无需与真实环境交互的情况下学习。这种方法降低了样本复杂度,并允许智能体从更多样化的经验中学习。
技术框架:WMPO框架主要包含以下几个模块:1) VLA特征提取器:使用预训练的VLA模型提取图像和语言指令的特征。2) 世界模型:一个基于像素的预测模型,用于预测给定状态和动作序列下的未来状态。3) 策略网络:用于生成动作序列,目标是最大化在世界模型中预测的奖励。4) 策略优化器:使用在线GRPO算法优化策略网络。整个流程是,首先使用VLA特征提取器提取环境状态特征,然后策略网络根据状态生成动作,世界模型预测执行动作后的下一个状态,策略优化器根据预测的状态和奖励信号更新策略网络。
关键创新:WMPO的关键创新在于使用像素级预测的世界模型,并结合在线GRPO算法进行策略优化。与传统的潜在世界模型相比,像素级预测能够更好地对齐“想象”的轨迹与VLA特征,从而提高策略学习的效率和性能。此外,WMPO采用在线GRPO算法,相比于常用的离线方法,能够提供更强的性能。
关键设计:WMPO的关键设计包括:1) 使用卷积神经网络构建像素级世界模型,并采用对抗生成网络(GAN)来提高预测的真实性。2) 使用在线GRPO算法进行策略优化,该算法能够有效地探索状态空间,并避免陷入局部最优。3) 设计合适的奖励函数,鼓励智能体完成任务并避免碰撞。具体的参数设置和网络结构细节在论文中有详细描述。
📊 实验亮点
实验结果表明,WMPO在模拟和真实机器人环境中均取得了显著的性能提升。在模拟环境中,WMPO的样本效率比基线方法提高了数倍。在真实机器人环境中,WMPO能够成功完成复杂的操作任务,并展现出自我纠正和泛化能力。例如,WMPO能够自主地调整抓取姿势,以应对物体位置的微小变化。
🎯 应用场景
WMPO具有广泛的应用前景,可用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人和医疗机器人等。通过在虚拟环境中进行训练,可以显著降低机器人的开发成本和风险,并提高其在复杂环境中的适应能力。此外,WMPO还可以用于开发更智能、更自主的机器人系统,从而实现更高级别的自动化。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.