MimicDroid: In-Context Learning for Humanoid Robot Manipulation from Human Play Videos

作者: Rutav Shah, Shuijing Liu, Qi Wang, Zhenyu Jiang, Sateesh Kumar, Mingyo Seo, Roberto Martín-Martín, Yuke Zhu

分类: cs.RO

发布日期: 2025-09-11

备注: 11 pages, 9 figures, 5 tables

💡 一句话要点

MimicDroid：利用人类游戏视频进行类人机器人操作的上下文学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 类人机器人 上下文学习 人类游戏视频 操作技能学习 少样本学习

📋 核心要点

现有ICL方法依赖于昂贵的遥操作数据，限制了其在机器人操作任务中的可扩展性。
MimicDroid利用人类游戏视频作为训练数据，通过轨迹对预测学习上下文操作能力。
实验表明，MimicDroid在模拟和真实环境中均优于现有方法，显著提升了操作成功率。

📝 摘要（中文）

本文旨在使类人机器人能够仅通过少量视频示例高效地解决新的操作任务。上下文学习（ICL）因其测试时的数据效率和快速适应性而成为实现此目标的一个有前景的框架。然而，当前的ICL方法依赖于劳动密集型的遥操作数据进行训练，这限制了可扩展性。我们提出使用人类游戏视频——人们与其环境自由交互的连续、无标签视频——作为一种可扩展且多样化的训练数据来源。我们介绍了MimicDroid，它使类人机器人能够使用人类游戏视频作为唯一的训练数据来执行ICL。MimicDroid提取具有相似操作行为的轨迹对，并训练策略以预测一个轨迹的动作，以另一个轨迹为条件。通过这个过程，该模型获得了ICL能力，可以在测试时适应新的对象和环境。为了弥合具身差距，MimicDroid首先将从RGB视频中估计的人类手腕姿势重新定位到类人机器人，利用运动学相似性。它还在训练期间应用随机补丁掩码，以减少对人类特定线索的过度拟合，并提高对视觉差异的鲁棒性。为了评估类人机器人的少样本学习，我们引入了一个具有递增泛化难度级别的开源模拟基准。MimicDroid优于最先进的方法，并在现实世界中实现了近两倍的成功率。更多材料可以在 ut-austin-rpl.github.io/MimicDroid 上找到。

🔬 方法详解

问题定义：论文旨在解决类人机器人如何仅通过少量人类演示视频就能快速适应并完成新的操作任务的问题。现有上下文学习方法依赖于大量的机器人遥操作数据，获取成本高昂且难以扩展到复杂环境和任务。因此，如何利用更易获取的人类数据，例如人类游戏视频，来训练机器人成为了一个挑战。

核心思路：论文的核心思路是利用人类游戏视频中蕴含的丰富操作信息，通过学习轨迹之间的对应关系，使机器人能够模仿人类的操作行为。具体来说，模型学习预测一个轨迹的动作，以另一个轨迹为条件，从而获得上下文学习能力。这种方法避免了直接模仿人类动作，而是学习操作行为的内在逻辑。

技术框架：MimicDroid的整体框架包括以下几个主要阶段：1) 数据收集：收集大量人类游戏视频，这些视频是无标签的，展示了人类与环境的交互。2) 轨迹提取与匹配：从视频中提取人类手腕的运动轨迹，并找到具有相似操作行为的轨迹对。3) 姿态重定向：将人类手腕姿势映射到类人机器人的关节空间，以弥合具身差距。4) 模型训练：训练一个策略网络，该网络以一个轨迹作为上下文，预测另一个轨迹的动作。5) 测试：在新的操作任务中，机器人利用少量演示视频作为上下文，执行相应的操作。

关键创新：该论文的关键创新在于：1) 使用人类游戏视频作为训练数据，显著降低了数据获取成本，提高了可扩展性。2) 提出了一种基于轨迹对预测的上下文学习方法，使机器人能够学习操作行为的内在逻辑，而不是简单地模仿人类动作。3) 引入了随机补丁掩码技术，提高了模型对视觉差异的鲁棒性，减少了对人类特定线索的过度拟合。

关键设计：在姿态重定向方面，论文利用了人类手腕和机器人手腕之间的运动学相似性，通过优化算法将人类姿势映射到机器人关节空间。在模型训练方面，使用了Transformer架构作为策略网络，并采用了交叉熵损失函数来优化动作预测。随机补丁掩码的比例设置为0.3，以平衡泛化能力和性能。

📊 实验亮点

MimicDroid在模拟环境中取得了显著的性能提升，在多个操作任务中优于现有的上下文学习方法。在真实世界实验中，MimicDroid的成功率接近现有方法的两倍，证明了其在实际应用中的有效性。该论文还开源了一个新的模拟基准，为类人机器人的少样本学习研究提供了便利。

🎯 应用场景

MimicDroid具有广泛的应用前景，例如家庭服务机器人、工业自动化和医疗辅助机器人等。它可以使机器人能够快速适应新的任务和环境，无需大量的重新编程或人工干预。通过利用互联网上大量的视频数据，可以不断提升机器人的操作能力，使其能够更好地服务于人类。

📄 摘要（原文）

We aim to enable humanoid robots to efficiently solve new manipulation tasks from a few video examples. In-context learning (ICL) is a promising framework for achieving this goal due to its test-time data efficiency and rapid adaptability. However, current ICL methods rely on labor-intensive teleoperated data for training, which restricts scalability. We propose using human play videos -- continuous, unlabeled videos of people interacting freely with their environment -- as a scalable and diverse training data source. We introduce MimicDroid, which enables humanoids to perform ICL using human play videos as the only training data. MimicDroid extracts trajectory pairs with similar manipulation behaviors and trains the policy to predict the actions of one trajectory conditioned on the other. Through this process, the model acquired ICL capabilities for adapting to novel objects and environments at test time. To bridge the embodiment gap, MimicDroid first retargets human wrist poses estimated from RGB videos to the humanoid, leveraging kinematic similarity. It also applies random patch masking during training to reduce overfitting to human-specific cues and improve robustness to visual differences. To evaluate few-shot learning for humanoids, we introduce an open-source simulation benchmark with increasing levels of generalization difficulty. MimicDroid outperformed state-of-the-art methods and achieved nearly twofold higher success rates in the real world. Additional materials can be found on: ut-austin-rpl.github.io/MimicDroid

MimicDroid: In-Context Learning for Humanoid Robot Manipulation from Human Play Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册