From Generated Human Videos to Physically Plausible Robot Trajectories
作者: James Ni, Zekai Wang, Wei Lin, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik, Roei Herzig
分类: cs.RO, cs.CV
发布日期: 2025-12-04 (更新: 2025-12-11)
备注: For project website, see https://genmimic.github.io
💡 一句话要点
GenMimic:利用生成视频实现人形机器人零样本物理可行轨迹控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人控制 人形机器人 视频生成 强化学习 零样本学习 运动模仿 物理仿真
📋 核心要点
- 现有方法难以直接将生成的含噪视频用于机器人控制,因为生成视频存在形态扭曲和噪声,导致直接模仿效果不佳。
- 论文提出GenMimic,一个两阶段框架:首先将视频像素提升到4D人体表示并进行形态重定向,然后使用基于物理的强化学习策略进行模仿。
- 实验表明,GenMimic在模拟和真实Unitree G1机器人上均表现出良好的零样本泛化能力和鲁棒性,无需微调即可实现稳定的运动跟踪。
📝 摘要(中文)
视频生成模型在合成新场景下的人类行为方面能力迅速提升,有潜力作为上下文机器人控制的高级规划器。为了实现这一潜力,一个关键的研究问题仍然存在:人形机器人如何以零样本方式执行来自生成视频的人类动作?由于生成视频通常包含噪声和形态扭曲,使得直接模仿变得困难。为了解决这个问题,我们引入了一个两阶段流程。首先,将视频像素转换为4D人体表示,然后重新定位到人形机器人的形态。其次,我们提出了GenMimic——一种基于物理的强化学习策略,以3D关键点为条件,并通过对称正则化和关键点加权跟踪奖励进行训练。因此,GenMimic可以模仿来自嘈杂的生成视频的人类动作。我们创建了GenMimicBench,这是一个合成的人体运动数据集,使用两个视频生成模型跨越一系列动作和上下文生成,为评估零样本泛化和策略鲁棒性建立了一个基准。大量的实验证明了在模拟中优于强大的基线,并证实了在Unitree G1人形机器人上无需微调即可实现连贯、物理稳定的运动跟踪。这项工作为实现视频生成模型作为机器人控制高级策略的潜力提供了一条有希望的途径。
🔬 方法详解
问题定义:论文旨在解决如何利用快速发展的视频生成模型,让人形机器人能够零样本模仿生成视频中的人类动作。现有方法难以直接应用,主要痛点在于生成视频通常包含噪声、形态失真,使得直接模仿学习面临挑战,导致机器人运动不稳定甚至失败。
核心思路:论文的核心思路是将问题分解为两个阶段:首先,将含噪的生成视频转换为更鲁棒的中间表示(4D人体姿态),以消除噪声和形态差异;然后,利用强化学习训练一个策略,使机器人能够根据该中间表示进行模仿。这种解耦的设计使得策略学习更加稳定,并提高了泛化能力。
技术框架:GenMimic包含两个主要阶段:1) 视频到4D人体表示:使用现有的姿态估计模型将视频帧转换为3D人体关键点,并将其扩展到4D空间以包含时间信息。然后,将人体关键点映射到人形机器人的骨骼结构。2) 基于物理的强化学习:设计一个强化学习环境,其中机器人根据3D关键点进行运动模仿。使用对称正则化和关键点加权跟踪奖励来提高策略的鲁棒性和稳定性。
关键创新:论文的关键创新在于提出了一个两阶段的框架,将视频理解和机器人控制解耦。通过引入4D人体表示作为中间层,有效降低了生成视频噪声和形态差异对机器人控制的影响。此外,GenMimicBench数据集的构建也为该领域的研究提供了新的基准。
关键设计:在强化学习阶段,使用了以下关键设计:1) 对称正则化:通过鼓励机器人在对称动作中保持平衡,提高策略的稳定性。2) 关键点加权跟踪奖励:根据关键点的重要性分配不同的权重,使得机器人更加关注重要的关节运动。3) 奖励函数设计:奖励函数综合考虑了关键点跟踪误差、平衡性和能量消耗,以实现更自然和高效的运动。
📊 实验亮点
实验结果表明,GenMimic在GenMimicBench数据集上显著优于基线方法,在模拟环境中实现了更高的运动模仿精度和稳定性。更重要的是,GenMimic成功地将训练好的策略迁移到真实的Unitree G1人形机器人上,无需进行任何微调,实现了连贯且物理稳定的运动跟踪,验证了该方法的有效性和泛化能力。
🎯 应用场景
该研究成果可应用于多种场景,例如:1) 家庭服务机器人:模仿人类进行家务操作;2) 工业机器人:执行复杂的装配任务;3) 康复机器人:辅助患者进行运动训练。通过利用视频生成模型,可以让人形机器人具备更强的泛化能力和适应性,从而更好地服务于人类社会。
📄 摘要(原文)
Video generation models are rapidly improving in their ability to synthesize human actions in novel contexts, holding the potential to serve as high-level planners for contextual robot control. To realize this potential, a key research question remains open: how can a humanoid execute the human actions from generated videos in a zero-shot manner? This challenge arises because generated videos are often noisy and exhibit morphological distortions that make direct imitation difficult compared to real video. To address this, we introduce a two-stage pipeline. First, we lift video pixels into a 4D human representation and then retarget to the humanoid morphology. Second, we propose GenMimic-a physics-aware reinforcement learning policy conditioned on 3D keypoints, and trained with symmetry regularization and keypoint-weighted tracking rewards. As a result, GenMimic can mimic human actions from noisy, generated videos. We curate GenMimicBench, a synthetic human-motion dataset generated using two video generation models across a spectrum of actions and contexts, establishing a benchmark for assessing zero-shot generalization and policy robustness. Extensive experiments demonstrate improvements over strong baselines in simulation and confirm coherent, physically stable motion tracking on a Unitree G1 humanoid robot without fine-tuning. This work offers a promising path to realizing the potential of video generation models as high-level policies for robot control.