UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes

📄 arXiv: 2505.12774v1 📥 PDF

作者: Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Mian

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-05-19


💡 一句话要点

提出UniHM以解决复杂场景下人类动作生成问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人类动作合成 多模态融合 扩散生成 变分自编码器 复杂场景理解 文本到动作 人类-物体交互

📋 核心要点

  1. 现有的语言条件动作模型在复杂场景下的动作生成能力不足,无法有效捕捉3D运动的上下文信息。
  2. 提出UniHM框架,结合扩散生成方法,支持文本到动作和文本到人类-物体交互的合成。
  3. 实验结果表明,UniHM在OMOMO基准测试中表现出色,并在HumanML3D上实现了竞争性结果。

📝 摘要(中文)

人类动作合成在复杂场景中面临基本挑战,超越了传统的文本到动作任务,需要整合静态环境、可移动物体、自然语言提示和空间路径等多种模态。现有的语言条件动作模型在场景感知动作生成方面常常受限于动作标记化的局限,导致信息丢失,无法捕捉3D人类运动的连续性和上下文依赖性。为了解决这些问题,我们提出了UniHM,一个统一的运动语言模型,利用基于扩散的生成方法合成场景感知的人类动作。UniHM是第一个支持复杂3D场景中文本到动作和文本到人类-物体交互的框架。我们的研究贡献包括:混合运动表示、创新的无查找量化变分自编码器(LFQ-VAE)以及增强的Lingo数据集。

🔬 方法详解

问题定义:本论文旨在解决复杂室内场景下的人类动作生成问题,现有方法在动作标记化过程中存在信息丢失,无法有效捕捉3D人类运动的连续性和上下文依赖性。

核心思路:我们提出的UniHM框架通过引入扩散生成方法,结合混合运动表示,能够更好地整合多模态信息,从而实现更真实的动作合成。

技术框架:UniHM的整体架构包括三个主要模块:混合运动表示模块、LFQ-VAE模块和数据集增强模块。混合运动表示模块将连续的6DoF运动与离散的局部运动标记融合,LFQ-VAE模块用于提高重建精度和生成性能,数据集增强模块则通过HumanML3D注释增强Lingo数据集。

关键创新:最重要的创新在于LFQ-VAE的提出,它超越了传统的VQ-VAEs,在重建精度和生成性能上均表现出色,显著提升了场景特定的动作学习能力。

关键设计:在模型设计中,我们采用了混合运动表示以提高动作的真实感,并通过无查找量化方法优化了变分自编码器的性能,确保了生成过程的高效性和准确性。我们还增强了数据集,以提供更强的监督信号。

📊 实验亮点

实验结果显示,UniHM在OMOMO基准测试中实现了与现有方法相当的性能,并在HumanML3D上获得了竞争性结果,证明了其在文本到人类-物体交互合成和一般文本条件动作生成方面的有效性。具体而言,UniHM在生成质量和准确性上均有显著提升。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和人机交互等场景,能够为这些领域提供更自然和真实的人类动作合成,提升用户体验。未来,UniHM有望推动智能机器人和自动化系统在复杂环境中的应用,增强其与人类及物体的交互能力。

📄 摘要(原文)

Human motion synthesis in complex scenes presents a fundamental challenge, extending beyond conventional Text-to-Motion tasks by requiring the integration of diverse modalities such as static environments, movable objects, natural language prompts, and spatial waypoints. Existing language-conditioned motion models often struggle with scene-aware motion generation due to limitations in motion tokenization, which leads to information loss and fails to capture the continuous, context-dependent nature of 3D human movement. To address these issues, we propose UniHM, a unified motion language model that leverages diffusion-based generation for synthesizing scene-aware human motion. UniHM is the first framework to support both Text-to-Motion and Text-to-Human-Object Interaction (HOI) in complex 3D scenes. Our approach introduces three key contributions: (1) a mixed-motion representation that fuses continuous 6DoF motion with discrete local motion tokens to improve motion realism; (2) a novel Look-Up-Free Quantization VAE (LFQ-VAE) that surpasses traditional VQ-VAEs in both reconstruction accuracy and generative performance; and (3) an enriched version of the Lingo dataset augmented with HumanML3D annotations, providing stronger supervision for scene-specific motion learning. Experimental results demonstrate that UniHM achieves comparative performance on the OMOMO benchmark for text-to-HOI synthesis and yields competitive results on HumanML3D for general text-conditioned motion generation.