World Models Can Leverage Human Videos for Dexterous Manipulation

📄 arXiv: 2512.13644v1 📥 PDF

作者: Raktim Gautam Goswami, Amir Bar, David Fan, Tsung-Yen Yang, Gaoyue Zhou, Prashanth Krishnamurthy, Michael Rabbat, Farshad Khorrami, Yann LeCun

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-12-15


💡 一句话要点

提出DexWM,利用人类视频提升灵巧操作世界模型的预测能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 灵巧操作 世界模型 机器人学习 视频预测 手部一致性

📋 核心要点

  1. 灵巧操作任务复杂,现有方法难以有效建模手部动作与环境的交互。
  2. DexWM利用大量人类和非灵巧机器人视频进行训练,并引入手部一致性损失。
  3. 实验表明,DexWM在预测精度和零样本泛化能力上均优于现有方法。

📝 摘要(中文)

灵巧操作极具挑战性,因为它需要理解细微的手部动作如何通过与物体的接触来影响环境。我们提出了DexWM,一个灵巧操作世界模型,它基于过去的状态和灵巧动作来预测环境的下一个潜在状态。为了克服灵巧操作数据集的稀缺性,DexWM在超过900小时的人类和非灵巧机器人视频上进行训练。为了实现精细的灵巧性,我们发现仅预测视觉特征是不够的;因此,我们引入了一个辅助手部一致性损失,以确保准确的手部配置。DexWM优于先前以文本、导航和全身动作为条件的现有世界模型,实现了对未来状态的更准确预测。当部署在配备Allegro夹爪的Franka Panda机械臂上时,DexWM还展示了对未见过的操作技能的强大零样本泛化能力,在抓取、放置和到达任务中,平均优于Diffusion Policy 50%以上。

🔬 方法详解

问题定义:论文旨在解决灵巧操作任务中,由于数据集稀缺和手部动作复杂性,导致世界模型难以准确预测环境状态的问题。现有方法往往依赖于有限的灵巧操作数据集,或者无法充分捕捉手部动作的细微变化,从而限制了模型的泛化能力和操作精度。

核心思路:论文的核心思路是利用大量人类和非灵巧机器人视频作为训练数据,并通过引入手部一致性损失来增强模型对灵巧手部动作的理解和预测能力。通过这种方式,模型可以从更广泛的数据集中学习到通用的操作模式,并更好地捕捉手部动作与环境之间的复杂关系。

技术框架:DexWM的技术框架主要包括以下几个模块:1) 视频编码器,用于将输入的视频帧编码为潜在状态表示;2) 动作编码器,用于将输入的动作指令编码为动作表示;3) 世界模型,基于过去的状态和动作表示,预测下一个潜在状态;4) 手部一致性模块,用于计算预测的手部配置与真实手部配置之间的差异,并将其作为损失函数的一部分。整个框架通过端到端的方式进行训练。

关键创新:论文最重要的技术创新点在于引入了手部一致性损失。传统的视觉预测方法往往只关注像素级别的预测,而忽略了手部动作的结构化信息。通过引入手部一致性损失,模型可以学习到更准确的手部配置,从而更好地理解手部动作与环境之间的交互关系。

关键设计:在关键设计方面,论文采用了变分自编码器(VAE)作为世界模型的基础架构,并使用循环神经网络(RNN)来建模时间序列数据。手部一致性损失采用L2损失函数,用于衡量预测的手部关节位置与真实手部关节位置之间的差异。此外,论文还采用了数据增强技术,例如随机裁剪和颜色抖动,以提高模型的鲁棒性。

📊 实验亮点

实验结果表明,DexWM在抓取、放置和到达任务中,平均优于Diffusion Policy 50%以上。此外,DexWM还展示了强大的零样本泛化能力,能够成功完成未见过的操作技能。这些结果表明,DexWM能够有效地学习到灵巧操作的通用模式,并将其泛化到新的任务中。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、远程操作等领域。例如,可以利用DexWM训练机器人完成复杂的装配任务,或者在危险环境中进行远程操作。此外,该研究还可以促进人机协作技术的发展,使机器人能够更好地理解人类的意图,并与人类协同完成任务。

📄 摘要(原文)

Dexterous manipulation is challenging because it requires understanding how subtle hand motion influences the environment through contact with objects. We introduce DexWM, a Dexterous Manipulation World Model that predicts the next latent state of the environment conditioned on past states and dexterous actions. To overcome the scarcity of dexterous manipulation datasets, DexWM is trained on over 900 hours of human and non-dexterous robot videos. To enable fine-grained dexterity, we find that predicting visual features alone is insufficient; therefore, we introduce an auxiliary hand consistency loss that enforces accurate hand configurations. DexWM outperforms prior world models conditioned on text, navigation, and full-body actions, achieving more accurate predictions of future states. DexWM also demonstrates strong zero-shot generalization to unseen manipulation skills when deployed on a Franka Panda arm equipped with an Allegro gripper, outperforming Diffusion Policy by over 50% on average in grasping, placing, and reaching tasks.