MMM: Generative Masked Motion Model

📄 arXiv: 2312.03596v2 📥 PDF

作者: Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen

分类: cs.CV, cs.AI, cs.LG

发布日期: 2023-12-06 (更新: 2024-03-28)

备注: accepted to CVPR

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MMM以解决实时性能与高保真度之间的权衡问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 运动生成 文本到动作 掩码模型 运动编辑 高保真度 实时性能 深度学习

📋 核心要点

  1. 现有文本到动作生成模型在实时性能与高保真度之间存在显著的权衡,限制了其应用。
  2. MMM通过运动标记器和条件掩码运动变换器,提出了一种新颖的运动生成方法,能够同时实现高效和高质量的运动生成。
  3. 在HumanML3D和KIT-ML数据集上的实验表明,MMM在生成质量和编辑功能上均优于现有方法,且速度提升显著。

📝 摘要(中文)

近年来,基于扩散和自回归模型的文本到动作生成取得了显著进展。然而,这些模型在实时性能、高保真度和动作可编辑性之间常常存在权衡。为了解决这一问题,本文提出了一种新颖的运动生成范式——MMM(Masked Motion Model)。MMM由两个关键组件组成:运动标记器和条件掩码运动变换器。通过对运动和文本标记的全方位关注,MMM能够显式捕捉运动标记之间的内在依赖关系及其与文本标记之间的语义映射。在推理过程中,MMM实现了高保真度和高速度的运动生成,同时具备内在的运动可编辑性。实验结果表明,MMM在生成高质量运动方面超越了当前领先的方法。

🔬 方法详解

问题定义:本文旨在解决现有文本到动作生成模型在实时性能、高保真度和可编辑性之间的权衡问题。现有方法往往无法兼顾这些需求,导致生成的动作质量和速度不理想。

核心思路:MMM的核心思路是通过运动标记器将3D人类动作转换为潜在空间中的离散标记序列,并利用条件掩码运动变换器预测随机掩码的运动标记,从而实现高效的运动生成。

技术框架:MMM的整体架构包括两个主要模块:运动标记器和条件掩码运动变换器。运动标记器负责将3D运动转换为标记序列,而条件掩码运动变换器则根据预先计算的文本标记来预测运动标记。

关键创新:MMM的主要创新在于通过全方位关注运动和文本标记,显式捕捉运动标记之间的依赖关系及其与文本的语义映射。这种设计使得MMM在推理时能够并行和迭代解码多个运动标记,确保生成的动作与细粒度文本描述高度一致。

关键设计:MMM的关键设计包括运动标记器的网络结构、掩码策略以及损失函数的设置。通过在需要编辑的地方放置掩码标记,MMM能够自动填补缺口,确保编辑部分与非编辑部分之间的平滑过渡。实验中,MMM在单个中档GPU上比可编辑运动扩散模型快两个数量级。

📊 实验亮点

在HumanML3D和KIT-ML数据集上的实验结果显示,MMM在生成高质量运动方面的FID分数分别为0.08和0.429,显著优于当前领先的方法。此外,MMM在运动编辑功能上表现出色,支持身体部位修改、运动插值和长序列合成,并在速度上比可编辑运动扩散模型快两个数量级。

🎯 应用场景

MMM的研究成果在动画制作、游戏开发和虚拟现实等领域具有广泛的应用潜力。其高效的运动生成和可编辑性能够大幅提升内容创作的效率和质量,满足用户对个性化和高保真度的需求。未来,MMM有望推动人机交互和自动化动画生成的进一步发展。

📄 摘要(原文)

Recent advances in text-to-motion generation using diffusion and autoregressive models have shown promising results. However, these models often suffer from a trade-off between real-time performance, high fidelity, and motion editability. To address this gap, we introduce MMM, a novel yet simple motion generation paradigm based on Masked Motion Model. MMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into a sequence of discrete tokens in latent space, and (2) a conditional masked motion transformer that learns to predict randomly masked motion tokens, conditioned on the pre-computed text tokens. By attending to motion and text tokens in all directions, MMM explicitly captures inherent dependency among motion tokens and semantic mapping between motion and text tokens. During inference, this allows parallel and iterative decoding of multiple motion tokens that are highly consistent with fine-grained text descriptions, therefore simultaneously achieving high-fidelity and high-speed motion generation. In addition, MMM has innate motion editability. By simply placing mask tokens in the place that needs editing, MMM automatically fills the gaps while guaranteeing smooth transitions between editing and non-editing parts. Extensive experiments on the HumanML3D and KIT-ML datasets demonstrate that MMM surpasses current leading methods in generating high-quality motion (evidenced by superior FID scores of 0.08 and 0.429), while offering advanced editing features such as body-part modification, motion in-betweening, and the synthesis of long motion sequences. In addition, MMM is two orders of magnitude faster on a single mid-range GPU than editable motion diffusion models. Our project page is available at \url{https://exitudio.github.io/MMM-page}.