X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

作者: Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou

分类: cs.CV

发布日期: 2025-12-04

💡 一句话要点

X-Humanoid：通过机器人化人类视频大规模生成类人机器人视频

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 视频生成 机器人化 类人机器人 具身智能 视频编辑 Unreal Engine 数据集生成

📋 核心要点

现有方法主要针对第一人称视角，无法处理第三人称视频中复杂的全身运动和遮挡问题，限制了其在机器人领域的应用。
X-Humanoid提出了一种生成式视频编辑方法，将Wan 2.2模型适配到视频到视频的结构中，并微调用于人类到类人机器人的转换。
通过Unreal Engine生成17+小时的配对合成视频进行训练，并在Ego-Exo4D视频上生成了包含360万帧的大规模机器人化数据集。

📝 摘要（中文）

具身智能的发展释放了智能类人机器人的巨大潜力。然而，视觉-语言-动作（VLA）模型和世界模型的进步都受到大规模、多样化训练数据稀缺的严重阻碍。一个有希望的解决方案是“机器人化”网络规模的人类视频，这已被证明对策略训练有效。然而，这些解决方案主要将机器人手臂“覆盖”到以自我为中心的视频上，无法处理第三人称视频中复杂的全身运动和场景遮挡，因此不适合机器人化人类。为了弥合这一差距，我们引入了X-Humanoid，一种生成式视频编辑方法，它将强大的Wan 2.2模型适配到视频到视频的结构中，并对其进行微调以完成人类到类人机器人的转换任务。这种微调需要配对的人类-类人机器人视频，因此我们设计了一个可扩展的数据创建流程，利用社区资源，使用Unreal Engine生成超过17小时的配对合成视频。然后，我们将训练好的模型应用于60小时的Ego-Exo4D视频，生成并发布了一个新的大规模数据集，包含超过360万帧的“机器人化”类人机器人视频帧。定量分析和用户研究证实了我们的方法优于现有的基线：69%的用户认为它在运动一致性方面最佳，62.1%的用户认为它在具身正确性方面最佳。

🔬 方法详解

问题定义：论文旨在解决将人类视频转换为类人机器人视频的问题，从而为具身智能和机器人学习提供大规模、多样化的训练数据。现有方法，特别是那些依赖于将机器人手臂叠加到第一人称视角视频上的方法，无法有效处理第三人称视角视频中复杂的全身运动和场景遮挡，限制了其在机器人领域的应用。

核心思路：论文的核心思路是利用生成式视频编辑技术，将人类视频中的人物形象转换为类人机器人形象，同时保持视频的运动和场景一致性。通过微调一个强大的视频生成模型（Wan 2.2），使其能够学习人类到类人机器人的转换，从而实现视频的“机器人化”。

技术框架：X-Humanoid的技术框架主要包含两个阶段：数据生成阶段和模型训练阶段。在数据生成阶段，利用Unreal Engine创建配对的人类-类人机器人视频，作为模型训练的监督数据。在模型训练阶段，将Wan 2.2模型适配到视频到视频的结构中，并使用生成的数据集进行微调，使其能够学习人类到类人机器人的转换。

关键创新：该论文的关键创新在于提出了一种基于生成式视频编辑的“机器人化”人类视频的方法，能够有效处理第三人称视角视频中复杂的全身运动和场景遮挡。此外，论文还设计了一个可扩展的数据创建流程，能够利用社区资源生成大规模的配对合成视频，为模型训练提供了充足的数据支持。

关键设计：论文的关键设计包括：1) 使用Wan 2.2模型作为基础模型，利用其强大的视频生成能力；2) 设计配对的人类-类人机器人视频数据集，为模型训练提供监督信号；3) 使用Unreal Engine进行数据生成，保证了数据的质量和多样性；4) 对Wan 2.2模型进行微调，使其能够学习人类到类人机器人的转换。

📊 实验亮点

实验结果表明，X-Humanoid在运动一致性和具身正确性方面均优于现有基线方法。用户研究表明，69%的用户认为X-Humanoid在运动一致性方面最佳，62.1%的用户认为它在具身正确性方面最佳。此外，该方法成功生成了包含360万帧的大规模机器人化数据集，为相关研究提供了宝贵资源。

🎯 应用场景

该研究成果可广泛应用于机器人学习、具身智能、虚拟现实等领域。通过生成大规模的类人机器人视频数据，可以促进VLA模型和世界模型的发展，提升机器人的感知、决策和控制能力。此外，该技术还可以用于创建虚拟现实环境中的机器人角色，增强用户体验。

📄 摘要（原文）

The advancement of embodied AI has unlocked significant potential for intelligent humanoid robots. However, progress in both Vision-Language-Action (VLA) models and world models is severely hampered by the scarcity of large-scale, diverse training data. A promising solution is to "robotize" web-scale human videos, which has been proven effective for policy training. However, these solutions mainly "overlay" robot arms to egocentric videos, which cannot handle complex full-body motions and scene occlusions in third-person videos, making them unsuitable for robotizing humans. To bridge this gap, we introduce X-Humanoid, a generative video editing approach that adapts the powerful Wan 2.2 model into a video-to-video structure and finetunes it for the human-to-humanoid translation task. This finetuning requires paired human-humanoid videos, so we designed a scalable data creation pipeline, turning community assets into 17+ hours of paired synthetic videos using Unreal Engine. We then apply our trained model to 60 hours of the Ego-Exo4D videos, generating and releasing a new large-scale dataset of over 3.6 million "robotized" humanoid video frames. Quantitative analysis and user studies confirm our method's superiority over existing baselines: 69% of users rated it best for motion consistency, and 62.1% for embodiment correctness.

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册