MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training

📄 arXiv: 2511.21592v1 📥 PDF

作者: Haotian Xue, Qi Chen, Zhonghao Wang, Xun Huang, Eli Shechtman, Jinrong Xie, Yongxin Chen

分类: cs.CV

发布日期: 2025-11-26

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MoGAN:通过少量步数的运动对抗后训练提升视频扩散模型的运动质量

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 视频扩散模型 运动质量 对抗训练 光流判别器 后训练 视频生成 时间一致性

📋 核心要点

  1. 现有视频扩散模型在运动连贯性和真实性方面存在不足,容易产生抖动等问题,原因是缺乏对时间一致性的直接监督。
  2. MoGAN通过运动对抗后训练,利用光流判别器区分真实和生成运动,并结合分布匹配正则化器,提升运动质量。
  3. 实验表明,MoGAN在VBench和VideoJAM-Bench等基准测试中,显著提高了运动质量,且保持了良好的视觉效果。

📝 摘要(中文)

视频扩散模型在帧级别上实现了很高的逼真度,但仍然难以保证运动的连贯性、动态性和真实感,经常产生抖动、重影或不合理的动态效果。一个关键的限制是,标准去噪MSE目标没有提供对时间一致性的直接监督,使得模型在产生较差运动的同时仍能实现较低的损失。我们提出了MoGAN,一个以运动为中心的后训练框架,可以在没有奖励模型或人类偏好数据的情况下提高运动的真实感。MoGAN建立在3步蒸馏视频扩散模型之上,我们训练了一个基于DiT的光流判别器来区分真实运动和生成运动,并结合一个分布匹配正则化器来保持视觉逼真度。在Wan2.1-T2V-1.3B上的实验表明,MoGAN在各个基准测试中显著提高了运动质量。在VBench上,MoGAN的运动得分比50步教师模型提高了+7.3%,比3步DMD模型提高了+13.3%。在VideoJAM-Bench上,MoGAN的运动得分比教师模型提高了+7.4%,比DMD提高了+8.8%,同时保持了相当甚至更好的美学和图像质量得分。一项人类研究进一步证实,MoGAN在运动质量方面更受欢迎(52% vs. 38% for the teacher; 56% vs. 29% for DMD)。总的来说,MoGAN在不牺牲视觉逼真度或效率的情况下,提供了显著更真实的运动,为快速、高质量的视频生成提供了一条实用的途径。

🔬 方法详解

问题定义:视频扩散模型在生成视频时,虽然在单帧图像质量上表现出色,但难以保证视频中运动的连贯性和真实性,容易出现抖动、重影等问题。现有的基于MSE的训练目标没有直接对时间一致性进行约束,导致模型优化方向与运动质量提升不完全一致。

核心思路:MoGAN的核心思路是通过对抗训练的方式,让模型学习到更真实的运动模式。具体来说,引入一个光流判别器,用于区分真实视频和生成视频的运动模式,从而引导生成器生成更逼真的运动。同时,为了避免对抗训练可能带来的视觉质量下降,引入了分布匹配正则化器,以保持生成视频的视觉逼真度。

技术框架:MoGAN的整体框架是一个后训练流程,建立在一个预训练的3步蒸馏视频扩散模型之上。主要包含两个模块:1) 基于DiT的光流判别器,用于区分真实和生成视频的运动模式;2) 分布匹配正则化器,用于保持生成视频的视觉逼真度。训练过程中,判别器和生成器进行对抗训练,同时使用正则化器约束生成器的输出。

关键创新:MoGAN的关键创新在于提出了一种以运动为中心的后训练方法,通过对抗训练和分布匹配正则化,在不依赖人工标注或奖励模型的情况下,显著提升了视频扩散模型的运动质量。与传统的基于MSE的训练方法相比,MoGAN能够更有效地学习到真实的运动模式。

关键设计:光流判别器采用DiT架构,输入为真实视频和生成视频的光流信息,输出为判别结果。分布匹配正则化器采用L1损失,用于约束生成视频的像素分布与原始视频的像素分布之间的差异。对抗训练采用标准的GAN损失函数。训练过程中,需要仔细调整判别器和生成器的学习率,以及正则化系数,以达到最佳的训练效果。

📊 实验亮点

MoGAN在多个视频生成基准测试中取得了显著的性能提升。在VBench上,MoGAN的运动得分比50步教师模型提高了+7.3%,比3步DMD模型提高了+13.3%。在VideoJAM-Bench上,MoGAN的运动得分比教师模型提高了+7.4%,比DMD提高了+8.8%,同时保持了相当甚至更好的美学和图像质量得分。人类评估也表明,MoGAN在运动质量方面更受欢迎。

🎯 应用场景

MoGAN技术可广泛应用于视频生成、视频编辑、游戏开发、电影制作等领域。它可以提升生成视频的真实感和流畅度,改善用户体验。例如,在游戏开发中,可以利用MoGAN生成更逼真的角色动画;在电影制作中,可以用于生成特效场景,降低制作成本。未来,MoGAN有望成为视频内容创作的重要工具。

📄 摘要(原文)

Video diffusion models achieve strong frame-level fidelity but still struggle with motion coherence, dynamics and realism, often producing jitter, ghosting, or implausible dynamics. A key limitation is that the standard denoising MSE objective provides no direct supervision on temporal consistency, allowing models to achieve low loss while still generating poor motion. We propose MoGAN, a motion-centric post-training framework that improves motion realism without reward models or human preference data. Built atop a 3-step distilled video diffusion model, we train a DiT-based optical-flow discriminator to differentiate real from generated motion, combined with a distribution-matching regularizer to preserve visual fidelity. With experiments on Wan2.1-T2V-1.3B, MoGAN substantially improves motion quality across benchmarks. On VBench, MoGAN boosts motion score by +7.3% over the 50-step teacher and +13.3% over the 3-step DMD model. On VideoJAM-Bench, MoGAN improves motion score by +7.4% over the teacher and +8.8% over DMD, while maintaining comparable or even better aesthetic and image-quality scores. A human study further confirms that MoGAN is preferred for motion quality (52% vs. 38% for the teacher; 56% vs. 29% for DMD). Overall, MoGAN delivers significantly more realistic motion without sacrificing visual fidelity or efficiency, offering a practical path toward fast, high-quality video generation. Project webpage is: https://xavihart.github.io/mogan.