OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers
作者: Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei Yang, Xin Chen, Jingyi Yu, Lan Xu
分类: cs.CV
发布日期: 2023-12-14 (更新: 2024-03-19)
备注: accepted by CVPR 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OMG:通过混合控制器实现开放词汇运动生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)
关键词: 文本到运动生成 开放词汇 扩散模型 ControlNet 混合控制器 零样本学习 运动生成
📋 核心要点
- 现有文本到运动生成方法在处理未见过的文本输入时,容易失败或产生不合理的运动,限制了应用。
- OMG框架通过预训练大型扩散模型和引入运动ControlNet,结合混合控制器(MoC)块,实现开放词汇运动生成。
- 实验结果表明,OMG在零样本文本到运动生成任务上显著优于现有最佳方法。
📝 摘要(中文)
本文提出了一种名为OMG的新框架,旨在实现从零样本开放词汇文本提示生成引人注目的运动。核心思想是将预训练-微调范式应用于文本到运动的生成。在预训练阶段,模型通过学习丰富的领域外固有运动特征来提高生成能力,为此,作者扩展了一个大型无条件扩散模型,参数高达10亿,从而利用超过2000万个运动实例的大量未标记运动数据。在随后的微调阶段,引入了运动ControlNet,它通过预训练模型的可训练副本和提出的新型混合控制器(MoC)块,将文本提示作为条件信息。MoC块通过交叉注意力机制自适应地识别各种子运动范围,并使用特定于文本token的专家分别处理它们。这种设计有效地将文本提示的CLIP token嵌入与各种紧凑且富有表现力的运动特征对齐。大量实验表明,OMG在零样本文本到运动生成方面优于最先进的方法。
🔬 方法详解
问题定义:现有文本到运动生成方法在处理未见过的文本输入时,泛化能力不足,容易生成不合理的运动。这主要是因为模型难以将开放词汇的文本提示与对应的运动特征有效对齐,导致生成质量下降。
核心思路:本文的核心思路是利用大规模无标签运动数据进行预训练,学习通用的运动特征表示,然后通过ControlNet和混合控制器(MoC)块,将文本提示作为条件信息,引导运动生成。MoC块能够自适应地识别不同范围的子运动,并使用专门的专家网络进行处理,从而实现更精确的文本到运动的映射。
技术框架:OMG框架主要分为两个阶段:预训练阶段和微调阶段。在预训练阶段,使用大规模无标签运动数据训练一个大型无条件扩散模型,学习通用的运动特征表示。在微调阶段,引入运动ControlNet,将文本提示作为条件信息,通过可训练的预训练模型副本和MoC块,引导运动生成。ControlNet包含一个encoder和一个decoder,encoder负责提取文本特征,decoder负责生成运动。
关键创新:本文的关键创新在于提出了混合控制器(MoC)块。MoC块通过交叉注意力机制,自适应地识别不同范围的子运动,并使用特定于文本token的专家网络进行处理。这种设计能够更有效地将文本提示的CLIP token嵌入与运动特征对齐,从而提高生成质量。与现有方法相比,MoC块能够更好地处理复杂的文本提示,并生成更合理的运动。
关键设计:MoC块包含多个专家网络,每个专家网络负责处理特定范围的子运动。交叉注意力机制用于计算文本token与运动特征之间的相关性,从而确定每个文本token应该由哪个专家网络处理。损失函数包括扩散模型的重建损失和CLIP损失,用于保证生成运动的质量和与文本提示的一致性。模型的参数规模达到10亿,使用了大规模的运动数据集进行训练。
📊 实验亮点
OMG在零样本文本到运动生成任务上取得了显著的性能提升。实验结果表明,OMG在各种评估指标上均优于现有最佳方法。例如,在FID指标上,OMG相比现有方法有显著降低,表明生成的运动更加真实自然。此外,OMG还能够生成更符合文本描述的运动,表明模型能够更好地理解文本提示。
🎯 应用场景
OMG框架可应用于游戏开发、动画制作、虚拟现实等领域,实现根据文本描述自动生成角色动画或虚拟人物运动。该技术能够降低内容创作的成本,提高创作效率,并为用户提供更丰富的交互体验。未来,该技术有望应用于人机交互、机器人控制等更广泛的领域。
📄 摘要(原文)
We have recently seen tremendous progress in realistic text-to-motion generation. Yet, the existing methods often fail or produce implausible motions with unseen text inputs, which limits the applications. In this paper, we present OMG, a novel framework, which enables compelling motion generation from zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the pretrain-then-finetune paradigm into the text-to-motion generation. At the pre-training stage, our model improves the generation ability by learning the rich out-of-domain inherent motion traits. To this end, we scale up a large unconditional diffusion model up to 1B parameters, so as to utilize the massive unlabeled motion data up to over 20M motion instances. At the subsequent fine-tuning stage, we introduce motion ControlNet, which incorporates text prompts as conditioning information, through a trainable copy of the pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block. MoC block adaptively recognizes various ranges of the sub-motions with a cross-attention mechanism and processes them separately with the text-token-specific experts. Such a design effectively aligns the CLIP token embeddings of text prompts to various ranges of compact and expressive motion features. Extensive experiments demonstrate that our OMG achieves significant improvements over the state-of-the-art methods on zero-shot text-to-motion generation. Project page: https://tr3e.github.io/omg-page.