X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale
作者: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou
分类: cs.CV
发布日期: 2025-12-04
💡 一句话要点
X-Humanoid:通过机器人化人类视频大规模生成类人机器人视频
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 视频生成 机器人化 类人机器人 具身智能 视频编辑 Unreal Engine 数据集生成
📋 核心要点
- 现有方法主要针对第一人称视角,无法处理第三人称视频中复杂的全身运动和遮挡问题,限制了其在机器人领域的应用。
- X-Humanoid提出了一种生成式视频编辑方法,将Wan 2.2模型适配到视频到视频的结构中,并微调用于人类到类人机器人的转换。
- 通过Unreal Engine生成17+小时的配对合成视频进行训练,并在Ego-Exo4D视频上生成了包含360万帧的大规模机器人化数据集。
📝 摘要(中文)
具身智能的发展释放了智能类人机器人的巨大潜力。然而,视觉-语言-动作(VLA)模型和世界模型的进步都受到大规模、多样化训练数据稀缺的严重阻碍。一个有希望的解决方案是“机器人化”网络规模的人类视频,这已被证明对策略训练有效。然而,这些解决方案主要将机器人手臂“覆盖”到以自我为中心的视频上,无法处理第三人称视频中复杂的全身运动和场景遮挡,因此不适合机器人化人类。为了弥合这一差距,我们引入了X-Humanoid,一种生成式视频编辑方法,它将强大的Wan 2.2模型适配到视频到视频的结构中,并对其进行微调以完成人类到类人机器人的转换任务。这种微调需要配对的人类-类人机器人视频,因此我们设计了一个可扩展的数据创建流程,利用社区资源,使用Unreal Engine生成超过17小时的配对合成视频。然后,我们将训练好的模型应用于60小时的Ego-Exo4D视频,生成并发布了一个新的大规模数据集,包含超过360万帧的“机器人化”类人机器人视频帧。定量分析和用户研究证实了我们的方法优于现有的基线:69%的用户认为它在运动一致性方面最佳,62.1%的用户认为它在具身正确性方面最佳。
🔬 方法详解
问题定义:论文旨在解决将人类视频转换为类人机器人视频的问题,从而为具身智能和机器人学习提供大规模、多样化的训练数据。现有方法,特别是那些依赖于将机器人手臂叠加到第一人称视角视频上的方法,无法有效处理第三人称视角视频中复杂的全身运动和场景遮挡,限制了其在机器人领域的应用。
核心思路:论文的核心思路是利用生成式视频编辑技术,将人类视频中的人物形象转换为类人机器人形象,同时保持视频的运动和场景一致性。通过微调一个强大的视频生成模型(Wan 2.2),使其能够学习人类到类人机器人的转换,从而实现视频的“机器人化”。
技术框架:X-Humanoid的技术框架主要包含两个阶段:数据生成阶段和模型训练阶段。在数据生成阶段,利用Unreal Engine创建配对的人类-类人机器人视频,作为模型训练的监督数据。在模型训练阶段,将Wan 2.2模型适配到视频到视频的结构中,并使用生成的数据集进行微调,使其能够学习人类到类人机器人的转换。
关键创新:该论文的关键创新在于提出了一种基于生成式视频编辑的“机器人化”人类视频的方法,能够有效处理第三人称视角视频中复杂的全身运动和场景遮挡。此外,论文还设计了一个可扩展的数据创建流程,能够利用社区资源生成大规模的配对合成视频,为模型训练提供了充足的数据支持。
关键设计:论文的关键设计包括:1) 使用Wan 2.2模型作为基础模型,利用其强大的视频生成能力;2) 设计配对的人类-类人机器人视频数据集,为模型训练提供监督信号;3) 使用Unreal Engine进行数据生成,保证了数据的质量和多样性;4) 对Wan 2.2模型进行微调,使其能够学习人类到类人机器人的转换。
📊 实验亮点
实验结果表明,X-Humanoid在运动一致性和具身正确性方面均优于现有基线方法。用户研究表明,69%的用户认为X-Humanoid在运动一致性方面最佳,62.1%的用户认为它在具身正确性方面最佳。此外,该方法成功生成了包含360万帧的大规模机器人化数据集,为相关研究提供了宝贵资源。
🎯 应用场景
该研究成果可广泛应用于机器人学习、具身智能、虚拟现实等领域。通过生成大规模的类人机器人视频数据,可以促进VLA模型和世界模型的发展,提升机器人的感知、决策和控制能力。此外,该技术还可以用于创建虚拟现实环境中的机器人角色,增强用户体验。
📄 摘要(原文)
The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.