DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
作者: Yufu Wang, Evonne Ng, Soyong Shin, Rawal Khirodkar, Yuan Dong, Zhaoen Su, Jinhyung Park, Kris Kitani, Alexander Richard, Fabian Prada, Michael Zollhofer
分类: cs.CV
发布日期: 2026-03-03
备注: CVPR 2026. Project page: https://yufu-wang.github.io/duomo/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DuoMo:双重运动扩散模型,用于世界坐标系下的人体运动重建
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动重建 扩散模型 世界坐标系 运动捕捉 生成模型
📋 核心要点
- 现有方法难以在从噪声视频中重建人体运动时,兼顾泛化性和全局运动一致性。
- DuoMo将运动学习分解为相机空间和世界空间两个扩散模型,分别处理局部运动估计和全局一致性优化。
- 实验表明,DuoMo在EMDB和RICH数据集上显著降低了世界空间重建误差,并减少了脚部滑动现象。
📝 摘要(中文)
本文提出DuoMo,一种生成式方法,用于从具有噪声或不完整观测的无约束视频中恢复世界坐标系下的人体运动。重建这种运动需要解决一个根本性的权衡:从多样且嘈杂的视频输入中泛化,同时保持全局运动一致性。我们的方法通过将运动学习分解为两个扩散模型来解决这个问题。相机空间模型首先估计相机坐标系下的视频运动。然后,世界空间模型将此初始估计提升到世界坐标系,并对其进行细化以使其全局一致。这两个模型可以重建各种场景和轨迹中的运动,即使来自高度嘈杂或不完整的观测。此外,我们的公式是通用的,直接生成网格顶点的运动,绕过参数模型。DuoMo实现了最先进的性能。在EMDB上,我们的方法在世界空间重建误差方面降低了16%,同时保持了较低的脚部滑动。在RICH上,它在世界空间误差方面降低了30%。项目页面:https://yufu-wang.github.io/duomo/
🔬 方法详解
问题定义:论文旨在解决从不完整或噪声视频中重建世界坐标系下人体运动的问题。现有方法通常难以在泛化性和全局运动一致性之间取得平衡,容易受到噪声干扰,且难以处理复杂的运动轨迹。此外,基于参数模型的方法限制了重建的灵活性和精度。
核心思路:DuoMo的核心思路是将运动重建过程分解为两个阶段,分别由两个扩散模型处理。首先,在相机坐标系下估计局部运动,降低对全局一致性的要求,从而提高对噪声的鲁棒性。然后,将局部运动提升到世界坐标系,并利用第二个扩散模型进行全局优化,确保运动轨迹的平滑性和一致性。
技术框架:DuoMo包含两个主要的扩散模型:相机空间运动扩散模型和世界空间运动扩散模型。首先,相机空间模型接收视频作为输入,预测相机坐标系下的初始运动估计。然后,世界空间模型将该估计作为条件,将其转换到世界坐标系,并进行迭代优化,以生成全局一致的运动轨迹。整个流程可以看作是一个由局部到全局的运动重建过程。
关键创新:DuoMo的关键创新在于双重扩散模型的架构,它有效地解耦了局部运动估计和全局运动优化。这种解耦使得模型能够更好地处理噪声和不完整数据,并生成更准确、更自然的运动轨迹。此外,DuoMo直接生成网格顶点的运动,避免了对参数模型的依赖,提高了重建的灵活性。
关键设计:相机空间和世界空间扩散模型均采用基于Transformer的网络结构,用于建模运动序列的时序依赖关系。损失函数包括重建损失和对抗损失,用于提高生成运动的真实感和准确性。在训练过程中,采用数据增强技术,例如随机遮挡和噪声注入,以提高模型的鲁棒性。具体的参数设置(如扩散步数、网络层数等)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
DuoMo在EMDB数据集上实现了16%的世界空间重建误差降低,并在RICH数据集上实现了30%的降低,显著优于现有方法。同时,DuoMo还能够有效减少脚部滑动现象,生成更自然的运动轨迹。这些实验结果表明,DuoMo在人体运动重建方面具有显著的优势。
🎯 应用场景
DuoMo在虚拟现实、增强现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于从普通视频中重建高质量的人体运动,从而实现更逼真、更自然的虚拟角色动画。此外,该技术还可以应用于运动分析、康复训练等领域,通过精确的运动重建来评估和改善人体运动。
📄 摘要(原文)
We present DuoMo, a generative method that recovers human motion in world-space coordinates from unconstrained videos with noisy or incomplete observations. Reconstructing such motion requires solving a fundamental trade-off: generalizing from diverse and noisy video inputs while maintaining global motion consistency. Our approach addresses this problem by factorizing motion learning into two diffusion models. The camera-space model first estimates motion from videos in camera coordinates. The world-space model then lifts this initial estimate into world coordinates and refines it to be globally consistent. Together, the two models can reconstruct motion across diverse scenes and trajectories, even from highly noisy or incomplete observations. Moreover, our formulation is general, generating the motion of mesh vertices directly and bypassing parametric models. DuoMo achieves state-of-the-art performance. On EMDB, our method obtains a 16% reduction in world-space reconstruction error while maintaining low foot skating. On RICH, it obtains a 30% reduction in world-space error. Project page: https://yufu-wang.github.io/duomo/