Human Motion Video Generation: A Survey

📄 arXiv: 2509.03883v1 📥 PDF

作者: Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu

分类: cs.CV, cs.MM

发布日期: 2025-09-04

备注: Accepted by TPAMI. Github Repo: https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation IEEE Access: https://ieeexplore.ieee.org/document/11106267

期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence 2025

DOI: 10.1109/TPAMI.2025.3594034

🔗 代码/项目: GITHUB


💡 一句话要点

全面综述人体运动视频生成技术,涵盖关键阶段、模态及大语言模型应用。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体运动视频生成 数字人 生成模型 运动规划 大型语言模型 视觉模态 文本模态 音频模态

📋 核心要点

  1. 现有的人体运动视频生成综述侧重于单一方法,缺乏对完整生成流程的系统性分析。
  2. 该综述深入研究人体运动视频生成的五个关键阶段,并探讨了大型语言模型在该领域的应用潜力。
  3. 综述涵盖视觉、文本和音频三种模态,回顾了最新的技术进展,并突出了重要的里程碑式工作。

📝 摘要(中文)

人体运动视频生成因其广泛的应用而备受关注,例如逼真的歌唱头部或无缝地随音乐跳舞的动态化身。然而,现有的综述主要集中于单个方法,缺乏对整个生成过程的全面概述。本文弥补了这一空白,对人体运动视频生成进行了深入的综述,涵盖了十多个子任务,并详细描述了生成过程的五个关键阶段:输入、运动规划、运动视频生成、细化和输出。值得注意的是,这是第一篇讨论大型语言模型在增强人体运动视频生成方面潜力的综述。我们的综述回顾了视觉、文本和音频三种主要模态下人体运动视频生成的最新进展和技术趋势。通过涵盖200多篇论文,我们对该领域进行了全面的概述,并重点介绍了推动重大技术突破的里程碑式工作。本综述旨在揭示人体运动视频生成的前景,并为推进数字人的全面应用提供有价值的资源。本综述中考察的模型的完整列表可在我们的存储库中找到。

🔬 方法详解

问题定义:现有的人体运动视频生成综述通常只关注特定的方法或技术,缺乏对整个生成流程的系统性分析和整合。这使得研究人员难以全面了解该领域的发展现状和未来趋势,也阻碍了不同方法之间的比较和融合。此外,如何利用新兴的大型语言模型来提升人体运动视频生成的质量和效率也是一个亟待解决的问题。

核心思路:该综述的核心思路是对人体运动视频生成的整个流程进行解构,将其划分为五个关键阶段:输入、运动规划、运动视频生成、细化和输出。通过对每个阶段涉及的技术和方法进行详细的梳理和分析,从而为研究人员提供一个全面而深入的了解。同时,该综述还探讨了大型语言模型在各个阶段的应用潜力,为未来的研究方向提供了新的思路。

技术框架:该综述的技术框架主要围绕人体运动视频生成的五个关键阶段展开。首先,对各种输入模态(如文本、音频、视觉)进行分析。然后,讨论运动规划阶段的各种方法,包括基于规则的方法、基于学习的方法等。接着,重点介绍运动视频生成阶段的各种生成模型,如GAN、VAE等。之后,对视频细化阶段的各种技术进行综述,包括超分辨率、去噪等。最后,对输出结果的评估指标和方法进行讨论。

关键创新:该综述的创新之处在于:1) 首次对人体运动视频生成的整个流程进行了系统性的划分和分析;2) 首次探讨了大型语言模型在该领域的应用潜力;3) 涵盖了视觉、文本和音频三种主要模态,提供了全面的视角。

关键设计:该综述的关键设计在于其结构化的组织方式,将复杂的生成流程分解为清晰的阶段,并对每个阶段的关键技术和方法进行了详细的介绍。此外,该综述还通过大量的文献引用,为读者提供了深入研究的资源。

📊 实验亮点

该综述涵盖了200多篇相关论文,对人体运动视频生成领域进行了全面的概述。特别强调了大型语言模型在该领域的潜在应用,并对视觉、文本和音频三种模态下的最新进展进行了详细的分析。该综述旨在为研究人员提供一个有价值的资源,并推动数字人技术的进一步发展。

🎯 应用场景

人体运动视频生成技术在数字人、虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的虚拟化身,生成高质量的动画内容,以及实现人机交互等功能。随着技术的不断发展,人体运动视频生成将在娱乐、教育、医疗等领域发挥越来越重要的作用。

📄 摘要(原文)

Human motion video generation has garnered significant research interest due to its broad applications, enabling innovations such as photorealistic singing heads or dynamic avatars that seamlessly dance to music. However, existing surveys in this field focus on individual methods, lacking a comprehensive overview of the entire generative process. This paper addresses this gap by providing an in-depth survey of human motion video generation, encompassing over ten sub-tasks, and detailing the five key phases of the generation process: input, motion planning, motion video generation, refinement, and output. Notably, this is the first survey that discusses the potential of large language models in enhancing human motion video generation. Our survey reviews the latest developments and technological trends in human motion video generation across three primary modalities: vision, text, and audio. By covering over two hundred papers, we offer a thorough overview of the field and highlight milestone works that have driven significant technological breakthroughs. Our goal for this survey is to unveil the prospects of human motion video generation and serve as a valuable resource for advancing the comprehensive applications of digital humans. A complete list of the models examined in this survey is available in Our Repository https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation.