EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation

📄 arXiv: 2312.02256v3 📥 PDF

作者: Wenyang Zhou, Zhiyang Dou, Zeyu Cao, Zhouyingcheng Liao, Jingbo Wang, Wenjia Wang, Yuan Liu, Taku Komura, Wenping Wang, Lingjie Liu

分类: cs.CV, cs.AI, cs.GR

发布日期: 2023-12-04 (更新: 2024-11-23)

备注: ECCV 2024. Project Page: https://frank-zy-dou.github.io/projects/EMDM/index.html


💡 一句话要点

提出EMDM高效运动扩散模型,实现快速高质量的人体运动生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动生成 扩散模型 GAN 条件生成 实时运动 人体运动 高效生成

📋 核心要点

  1. 现有运动生成扩散模型在效率和质量之间存在trade-off,直接加速采样会导致质量下降。
  2. EMDM通过条件去噪扩散GAN捕获多步采样中的复杂分布,从而减少采样步数并加速生成。
  3. EMDM通过施加几何损失来减少运动伪影,实现了实时运动生成,并在效率和质量上优于现有方法。

📝 摘要(中文)

本文提出了一种高效运动扩散模型(EMDM),用于快速且高质量的人体运动生成。目前最先进的生成扩散模型虽然取得了令人印象深刻的结果,但难以在不牺牲质量的前提下实现快速生成。一方面,像运动潜在扩散这样的先前工作在潜在空间中进行扩散以提高效率,但学习这种潜在空间可能并非易事。另一方面,通过简单地增加采样步长(例如DDIM)来加速生成通常会导致质量下降,因为它无法近似复杂的去噪分布。为了解决这些问题,我们提出了EMDM,它捕获扩散模型中多个采样步骤期间的复杂分布,从而减少采样步骤并显著加速生成。这是通过条件去噪扩散GAN来实现的,该GAN捕获任意(且可能更大)步长之间的多模态数据分布,并以控制信号为条件,从而能够以高保真度和多样性进行更少步数的运动采样。为了最大限度地减少不需要的运动伪影,在网络学习期间施加了几何损失。因此,与现有方法相比,EMDM实现了实时运动生成,并显著提高了运动扩散模型的效率,同时实现了高质量的运动生成。我们的代码将在发布后公开。

🔬 方法详解

问题定义:现有运动生成扩散模型在生成速度和运动质量之间难以平衡。基于潜在空间的扩散模型需要额外的潜在空间学习,增加了复杂性。而直接减少采样步数(如DDIM)会导致生成质量显著下降,无法准确模拟复杂的去噪分布。

核心思路:EMDM的核心思路是利用条件去噪扩散GAN来学习扩散模型中多个采样步骤之间的复杂分布。通过学习这种分布,模型可以在更少的采样步骤中生成高质量的运动,从而显著提高生成速度。这种方法避免了对潜在空间的依赖,并能更好地近似复杂的去噪过程。

技术框架:EMDM的整体框架是一个条件去噪扩散GAN。它包含一个扩散过程,将原始运动数据逐步加入噪声,以及一个去噪过程,通过GAN学习从噪声数据中恢复原始运动。GAN的生成器负责去噪,判别器负责区分生成的运动和真实的运动。整个过程以控制信号为条件,例如运动类型或风格。

关键创新:EMDM的关键创新在于使用条件去噪扩散GAN来捕获多步采样中的复杂分布。这使得模型能够在减少采样步骤的同时保持高质量的运动生成。与传统的扩散模型相比,EMDM不需要大量的采样步骤来逼近真实的分布,从而实现了更快的生成速度。

关键设计:EMDM的关键设计包括:1) 使用GAN来学习去噪过程,从而更好地捕获多模态数据分布;2) 使用条件信息来控制运动的生成;3) 引入了几何损失,以减少运动伪影,保证生成的运动的自然性和真实性。这些几何损失可能包括骨骼长度约束、角度约束等。

📊 实验亮点

EMDM在运动生成速度上取得了显著提升,实现了实时运动生成。与现有方法相比,EMDM在保持高质量运动生成的同时,显著减少了采样步骤,提高了生成效率。具体的性能数据和对比基线将在论文发表后公开。

🎯 应用场景

EMDM可应用于虚拟现实、游戏、动画制作等领域,实现实时、高质量的人体运动生成。例如,在游戏中,可以根据玩家的输入实时生成角色的运动,提高游戏的交互性和沉浸感。在动画制作中,可以快速生成各种复杂的运动,提高制作效率。该研究的未来影响在于推动运动生成技术的发展,使其更加高效、逼真。

📄 摘要(原文)

We introduce Efficient Motion Diffusion Model (EMDM) for fast and high-quality human motion generation. Current state-of-the-art generative diffusion models have produced impressive results but struggle to achieve fast generation without sacrificing quality. On the one hand, previous works, like motion latent diffusion, conduct diffusion within a latent space for efficiency, but learning such a latent space can be a non-trivial effort. On the other hand, accelerating generation by naively increasing the sampling step size, e.g., DDIM, often leads to quality degradation as it fails to approximate the complex denoising distribution. To address these issues, we propose EMDM, which captures the complex distribution during multiple sampling steps in the diffusion model, allowing for much fewer sampling steps and significant acceleration in generation. This is achieved by a conditional denoising diffusion GAN to capture multimodal data distributions among arbitrary (and potentially larger) step sizes conditioned on control signals, enabling fewer-step motion sampling with high fidelity and diversity. To minimize undesired motion artifacts, geometric losses are imposed during network learning. As a result, EMDM achieves real-time motion generation and significantly improves the efficiency of motion diffusion models compared to existing methods while achieving high-quality motion generation. Our code will be publicly available upon publication.