FloodDiffusion: Tailored Diffusion Forcing for Streaming Motion Generation

📄 arXiv: 2512.03520v1 📥 PDF

作者: Yiyi Cai, Yuhan Wu, Kunhang Li, You Zhou, Bo Zheng, Haiyang Liu

分类: cs.CV

发布日期: 2025-12-03

备注: 15 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

FloodDiffusion:用于流式运动生成的定制扩散强制框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 流式运动生成 扩散模型 扩散强制 文本驱动 人体动画 双向注意力 时间序列生成

📋 核心要点

  1. 现有流式运动生成方法依赖分块或自回归模型,难以保证运动序列的连贯性和实时性。
  2. FloodDiffusion采用扩散强制框架,通过定制化的训练和调度策略,更好地建模运动分布。
  3. 实验结果表明,FloodDiffusion在HumanML3D数据集上取得了SOTA性能,FID指标达到0.057。

📝 摘要(中文)

本文提出FloodDiffusion,一个用于文本驱动的流式人体运动生成的新框架。给定随时间变化的文本提示,FloodDiffusion能够生成与文本对齐的、无缝的运动序列,并具有实时延迟。与依赖于分块或具有扩散头的自回归模型的现有方法不同,我们采用扩散强制框架来建模这种时变控制事件下的时间序列生成任务。我们发现,直接实现原始扩散强制(如为视频模型提出的)无法对真实的运动分布进行建模。我们证明,为了保证对输出分布进行建模,必须对原始扩散强制进行定制,包括:(i) 使用双向注意力而不是因果注意力进行训练;(ii) 实现下三角时间调度器而不是随机调度器;(iii) 利用连续时变的方式引入文本条件。通过这些改进,我们首次证明了基于扩散强制的框架在流式运动生成任务上实现了最先进的性能,在HumanML3D基准测试上达到了0.057的FID。

🔬 方法详解

问题定义:论文旨在解决文本驱动的流式人体运动生成问题。现有方法,如基于分块或自回归扩散模型的方法,在处理流式数据时存在问题。分块方法可能导致运动不连贯,而自回归模型则可能引入延迟,难以满足实时性要求。此外,直接将视频领域的扩散强制方法应用于运动生成,无法有效建模真实的运动分布。

核心思路:FloodDiffusion的核心思路是利用扩散强制框架,并对其进行定制化改进,使其能够更好地适应流式运动生成任务。通过定制化的训练策略和时间调度器,模型能够更准确地学习运动数据的分布,并生成连贯、实时的运动序列。关键在于如何将扩散强制有效地应用于时间序列数据,并保证生成结果的质量。

技术框架:FloodDiffusion的整体框架基于扩散模型,并采用扩散强制的方式进行训练。该框架主要包含以下几个模块:1) 文本编码器:将输入的文本提示转换为特征向量。2) 运动扩散过程:将真实的运动数据逐步加入噪声,直至完全变为噪声。3) 运动去噪过程:通过神经网络学习从噪声中恢复原始运动数据。4) 扩散强制模块:在去噪过程中,利用文本提示对运动生成进行引导。

关键创新:FloodDiffusion的关键创新在于对扩散强制框架的定制化改进,具体包括:1) 使用双向注意力机制:相比于传统的因果注意力,双向注意力能够更好地捕捉运动序列中的上下文信息。2) 采用下三角时间调度器:相比于随机调度器,下三角调度器能够更好地控制噪声的加入过程,保证生成结果的质量。3) 引入连续时变的文本条件:通过连续的方式将文本信息融入到扩散过程中,能够更有效地引导运动生成。

关键设计:在网络结构方面,FloodDiffusion采用了Transformer架构,并对注意力机制进行了改进。在损失函数方面,采用了标准的扩散模型损失函数,并加入了文本对齐损失,以保证生成的运动与文本提示一致。在时间调度方面,采用了下三角调度器,并对调度参数进行了精细调整。

📊 实验亮点

FloodDiffusion在HumanML3D数据集上取得了显著的性能提升,FID指标达到了0.057,超越了现有的SOTA方法。实验结果表明,定制化的扩散强制框架能够有效地建模运动数据分布,生成高质量的流式运动序列。该方法在保证实时性的同时,显著提高了运动生成的质量和连贯性。

🎯 应用场景

FloodDiffusion在虚拟现实、游戏开发、人机交互等领域具有广泛的应用前景。它可以用于生成与用户语音或文本指令相对应的实时人物动画,提升用户体验。此外,该技术还可以应用于运动康复、舞蹈教学等领域,为用户提供个性化的运动指导。

📄 摘要(原文)

We present FloodDiffusion, a new framework for text-driven, streaming human motion generation. Given time-varying text prompts, FloodDiffusion generates text-aligned, seamless motion sequences with real-time latency. Unlike existing methods that rely on chunk-by-chunk or auto-regressive model with diffusion head, we adopt a diffusion forcing framework to model this time-series generation task under time-varying control events. We find that a straightforward implementation of vanilla diffusion forcing (as proposed for video models) fails to model real motion distributions. We demonstrate that to guarantee modeling the output distribution, the vanilla diffusion forcing must be tailored to: (i) train with a bi-directional attention instead of casual attention; (ii) implement a lower triangular time scheduler instead of a random one; (iii) utilize a continues time-varying way to introduce text conditioning. With these improvements, we demonstrate in the first time that the diffusion forcing-based framework achieves state-of-the-art performance on the streaming motion generation task, reaching an FID of 0.057 on the HumanML3D benchmark. Models, code, and weights are available. https://shandaai.github.io/FloodDiffusion/