Latent Action Pretraining Through World Modeling

📄 arXiv: 2509.18428v1 📥 PDF

作者: Bahey Tharwat, Yara Nasser, Ali Abouzeid, Ian Reid

分类: cs.RO, cs.CV

发布日期: 2025-09-22


💡 一句话要点

提出LAWM,通过世界建模进行潜在动作预训练,提升机器人操作任务效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 自监督学习 世界建模 潜在动作表示 视觉-语言-动作模型 预训练 无标签数据

📋 核心要点

  1. 现有VLA模型依赖大规模人工标注数据,模型体积大,难以在真实场景部署。
  2. LAWM框架通过世界建模,从无标签视频中学习潜在动作表示,实现自监督预训练。
  3. 实验表明,LAWM在LIBERO基准和真实环境中,性能优于其他预训练方法,且更高效。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在学习遵循语言指令的机器人操作任务中越来越受欢迎。最先进的VLA模型,如OpenVLA和$π_{0}$,是在通过遥操作收集的大规模、手动标记的动作数据集上训练的。最近的方法,包括LAPA和villa-X,引入了潜在动作表示,通过对帧之间的抽象视觉变化进行建模,从而能够在未标记的数据集上进行无监督预训练。尽管这些方法已经显示出强大的结果,但它们庞大的模型尺寸使得在现实世界中的部署具有挑战性。在这项工作中,我们提出了LAWM,一个模型无关的框架,通过世界建模从未标记的视频数据中学习潜在动作表示,以自监督的方式预训练模仿学习模型。这些视频可以来自机器人录像或人类使用日常物品执行动作的视频。我们的框架旨在有效地跨任务、环境和实体进行迁移。在LIBERO基准测试和真实环境中,它优于使用真实机器人动作训练的模型和类似的预训练方法,同时对于现实世界环境来说效率更高且更实用。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型依赖于大规模人工标注的动作数据集进行训练,这限制了其可扩展性和泛化能力。此外,这些模型的模型尺寸通常很大,给在资源受限的真实世界机器人应用中的部署带来了挑战。因此,需要一种能够利用无标签数据进行有效预训练,并生成紧凑模型的方法。

核心思路:LAWM的核心思路是通过世界建模学习潜在动作表示。具体来说,LAWM利用无标签视频数据(例如,机器人录像或人类操作视频)来学习一个能够预测视频帧之间抽象视觉变化的模型。这种潜在动作表示可以捕捉到动作的本质,而无需依赖于具体的动作标签。通过学习这种表示,LAWM可以为下游的模仿学习任务提供一个良好的初始化,从而提高学习效率和泛化能力。

技术框架:LAWM框架包含以下主要模块:1) 视频编码器:将原始视频帧编码成视觉特征向量。2) 潜在动作编码器:将连续的视觉特征向量编码成潜在动作表示。3) 世界模型:利用潜在动作表示预测下一帧的视觉特征向量。4) 损失函数:用于训练世界模型,鼓励潜在动作表示能够准确地预测未来的视觉变化。整个框架以自监督的方式进行训练,无需人工标注。

关键创新:LAWM的关键创新在于其模型无关性以及利用世界模型进行潜在动作预训练。与以往依赖特定模型结构的预训练方法不同,LAWM可以与各种模仿学习模型结合使用。此外,通过世界建模,LAWM能够学习到更具泛化能力的潜在动作表示,从而提高了跨任务、环境和实体的迁移能力。

关键设计:LAWM的关键设计包括:1) 使用对比学习损失函数来训练潜在动作编码器,鼓励相似动作的潜在表示更加接近。2) 使用Transformer网络来建模视频帧之间的时序关系。3) 使用变分自编码器(VAE)来学习潜在动作表示的概率分布,从而提高模型的鲁棒性。

📊 实验亮点

LAWM在LIBERO基准测试中取得了显著的性能提升,超过了使用真实机器人动作训练的模型以及其他预训练方法。此外,在真实世界机器人实验中,LAWM也表现出了优异的性能,验证了其在实际应用中的有效性。重要的是,LAWM在性能提升的同时,保持了较高的效率,使其更适合在资源受限的机器人平台上部署。

🎯 应用场景

LAWM框架可广泛应用于机器人操作任务,例如物体抓取、装配、导航等。通过利用大量的无标签视频数据进行预训练,可以显著降低对人工标注数据的需求,加速机器人学习过程。此外,LAWM的模型无关性使其能够与各种机器人平台和控制算法结合使用,具有很高的灵活性和实用价值。未来,LAWM有望推动机器人技术在工业自动化、家庭服务、医疗保健等领域的广泛应用。

📄 摘要(原文)

Vision-Language-Action (VLA) models have gained popularity for learning robotic manipulation tasks that follow language instructions. State-of-the-art VLAs, such as OpenVLA and $π_{0}$, were trained on large-scale, manually labeled action datasets collected through teleoperation. More recent approaches, including LAPA and villa-X, introduce latent action representations that enable unsupervised pretraining on unlabeled datasets by modeling abstract visual changes between frames. Although these methods have shown strong results, their large model sizes make deployment in real-world settings challenging. In this work, we propose LAWM, a model-agnostic framework to pretrain imitation learning models in a self-supervised way, by learning latent action representations from unlabeled video data through world modeling. These videos can be sourced from robot recordings or videos of humans performing actions with everyday objects. Our framework is designed to be effective for transferring across tasks, environments, and embodiments. It outperforms models trained with ground-truth robotics actions and similar pretraining methods on the LIBERO benchmark and real-world setup, while being significantly more efficient and practical for real-world settings.