MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

📄 arXiv: 2508.19527v1 📥 PDF

作者: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu

分类: cs.CV

发布日期: 2025-08-27

备注: 11 pages, 5 figures


💡 一句话要点

提出MotionFlux以解决文本驱动运动生成的效率与精度问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 运动生成 文本驱动 实时合成 语义对齐 高效推理 虚拟角色 动画制作

📋 核心要点

  1. 现有文本驱动运动生成方法在语言描述与运动语义的对齐上存在不足,且推理速度较慢。
  2. 本文提出的TAPO框架通过对齐运动变化与文本修饰符,并进行迭代调整,增强了语义基础。
  3. 实验结果显示,TAPO与MotionFLUX的结合在语义一致性和运动质量上超越了现有方法,同时显著提高了生成速度。

📝 摘要(中文)

运动生成对于虚拟角色和具身代理的动画至关重要。尽管近期的文本驱动方法取得了显著进展,但在语言描述与运动语义之间的精确对齐以及多步骤推理的低效性方面仍存在挑战。为了解决这些问题,本文提出了TMR++对齐偏好优化(TAPO)框架,旨在将细微的运动变化与文本修饰符对齐,并通过迭代调整来增强语义基础。此外,本文还提出了MotionFLUX,一个基于确定性修正流匹配的高效生成框架。与传统的扩散模型相比,MotionFLUX通过构建噪声分布与运动空间之间的最优传输路径,实现实时合成。实验结果表明,TAPO与MotionFLUX结合形成的统一系统在语义一致性和运动质量上均优于现有最先进的方法,同时加快了生成速度。

🔬 方法详解

问题定义:本文旨在解决文本驱动运动生成中语言描述与运动语义之间的对齐问题,以及现有方法在推理过程中的低效性。现有的扩散模型通常需要数百个去噪步骤,导致生成速度缓慢。

核心思路:论文提出的TAPO框架通过对齐细微的运动变化与文本修饰符,结合迭代调整,增强了运动生成的语义基础。同时,MotionFLUX框架通过确定性修正流匹配实现高效生成,避免了传统方法的多步骤采样。

技术框架:整体架构包括两个主要模块:TAPO用于对齐运动与文本,MotionFLUX用于快速生成。TAPO通过优化偏好对齐运动变化,MotionFLUX则通过构建噪声分布与运动空间之间的最优传输路径来实现实时合成。

关键创新:最重要的创新在于MotionFLUX的设计,它通过线性化概率路径减少了多步骤采样的需求,从而显著加快了推理速度,同时保持了运动质量。

关键设计:在设计中,TAPO采用了特定的损失函数来优化运动与文本的对齐,MotionFLUX则利用确定性流匹配技术来构建传输路径,确保生成的运动与输入文本的语义一致性。

📊 实验亮点

实验结果表明,TAPO与MotionFLUX的结合在语义一致性和运动质量上均优于现有最先进的方法,生成速度提高了数倍。具体而言,MotionFLUX在保持运动质量的同时,推理时间显著减少,展示了其在实时应用中的潜力。

🎯 应用场景

该研究具有广泛的应用潜力,尤其是在虚拟现实、游戏开发和动画制作等领域。通过提高文本驱动运动生成的效率与质量,能够为开发者提供更灵活和高效的工具,提升用户体验。此外,未来可能在机器人控制和人机交互等领域也能发挥重要作用。

📄 摘要(原文)

Motion generation is essential for animating virtual characters and embodied agents. While recent text-driven methods have made significant strides, they often struggle with achieving precise alignment between linguistic descriptions and motion semantics, as well as with the inefficiencies of slow, multi-step inference. To address these issues, we introduce TMR++ Aligned Preference Optimization (TAPO), an innovative framework that aligns subtle motion variations with textual modifiers and incorporates iterative adjustments to reinforce semantic grounding. To further enable real-time synthesis, we propose MotionFLUX, a high-speed generation framework based on deterministic rectified flow matching. Unlike traditional diffusion models, which require hundreds of denoising steps, MotionFLUX constructs optimal transport paths between noise distributions and motion spaces, facilitating real-time synthesis. The linearized probability paths reduce the need for multi-step sampling typical of sequential methods, significantly accelerating inference time without sacrificing motion quality. Experimental results demonstrate that, together, TAPO and MotionFLUX form a unified system that outperforms state-of-the-art approaches in both semantic consistency and motion quality, while also accelerating generation speed. The code and pretrained models will be released.