MotionDuet: Dual-Conditioned 3D Human Motion Generation with Video-Regularized Text Learning

作者: Yi-Yang Zhang, Tengjiao Sun, Pengcheng Fang, Deng-Bao Wang, Xiaohao Cai, Min-Ling Zhang, Hansung Kim

分类: cs.GR

发布日期: 2025-11-22

💡 一句话要点

MotionDuet：提出一种视频正则化的文本学习框架，用于双重条件下的3D人体运动生成。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 3D人体运动生成 多模态融合 视频正则化 文本条件 双重条件 分布对齐 运动合成

📋 核心要点

现有3D人体运动生成方法依赖昂贵的动作捕捉或仅依赖视频/文本信息，生成的运动真实性和可控性不足。
MotionDuet利用双重条件范式，结合视频和文本信息，通过DUET和DASH损失对齐模态分布，提升运动质量。
实验表明，MotionDuet在生成逼真和可控的人体运动方面优于现有方法，实现了性能的显著提升。

📝 摘要（中文）

3D人体运动生成在电影、动画、游戏和具身智能等领域至关重要。传统的3D运动合成依赖于昂贵的动作捕捉，而最近的研究表明，2D视频提供了丰富且时间上连贯的人类行为观察。然而，现有方法要么将高层文本描述映射到运动，要么仅依赖视频条件，导致生成的动态与真实世界运动统计之间存在差距。我们引入MotionDuet，一个多模态框架，使运动生成与视频派生的表示分布对齐。在这种双重条件范式中，从预训练模型（例如VideoMAE）提取的视频线索奠定了低级运动动态的基础，而文本提示提供了语义意图。为了弥合跨模态的分布差距，我们提出了双流统一编码和转换（DUET）以及分布感知结构协调（DASH）损失。DUET通过统一编码和动态注意力将视频信息融合到运动潜在空间中，而DASH使运动轨迹与视频特征的分布和结构统计对齐。自动引导机制通过利用模型的弱化副本进一步平衡文本和视觉信号，从而在不牺牲多样性的前提下增强了可控性。大量实验表明，MotionDuet生成逼真且可控的人体运动，超越了强大的最先进基线。

🔬 方法详解

问题定义：现有3D人体运动生成方法存在以下痛点：一是依赖昂贵的动作捕捉设备，成本高昂；二是仅依赖文本描述或视频信息，无法同时保证生成运动的真实性和可控性，导致生成的运动与真实世界的运动统计存在差距。

核心思路：MotionDuet的核心思路是利用双重条件范式，同时结合视频和文本信息来生成3D人体运动。视频信息提供低级的运动动态，文本信息提供高级的语义意图。通过对齐视频和文本模态的分布，可以生成更真实、更可控的运动。

技术框架：MotionDuet的整体框架包含以下主要模块：1) 视频特征提取模块：使用预训练的VideoMAE提取视频特征；2) 文本特征提取模块：提取文本描述的特征；3) 双流统一编码和转换（DUET）模块：将视频和文本特征融合到运动潜在空间中；4) 运动生成模块：基于融合后的特征生成3D人体运动；5) 分布感知结构协调（DASH）损失：用于对齐运动轨迹与视频特征的分布和结构统计；6) 自动引导机制：平衡文本和视觉信号，增强可控性。

关键创新：MotionDuet的关键创新点在于：1) 提出了双流统一编码和转换（DUET）模块，能够有效地融合视频和文本特征；2) 提出了分布感知结构协调（DASH）损失，能够对齐运动轨迹与视频特征的分布和结构统计，从而提高生成运动的真实性；3) 提出了自动引导机制，能够在不牺牲多样性的前提下增强可控性。与现有方法相比，MotionDuet能够更好地利用视频和文本信息，生成更真实、更可控的3D人体运动。

关键设计：DUET模块使用动态注意力机制来融合视频和文本特征。DASH损失包含两部分：一部分是分布对齐损失，用于对齐运动轨迹和视频特征的分布；另一部分是结构协调损失，用于对齐运动轨迹和视频特征的结构统计。自动引导机制通过使用模型的弱化副本，来平衡文本和视觉信号。具体实现细节（如网络结构、参数设置等）未知。

📊 实验亮点

MotionDuet在多个数据集上进行了实验，结果表明，MotionDuet在生成逼真和可控的人体运动方面优于现有方法。具体性能数据未知，但论文强调MotionDuet超越了强大的state-of-the-art基线，证明了其有效性。

🎯 应用场景

MotionDuet在电影制作、动画设计、游戏开发和具身智能等领域具有广泛的应用前景。它可以用于生成逼真且可控的3D人体运动，从而降低动作捕捉的成本，提高内容创作的效率。此外，MotionDuet还可以应用于虚拟现实、人机交互等领域，为用户提供更自然、更真实的交互体验。未来，该研究可以进一步扩展到其他类型的运动生成任务，例如动物运动生成、物体运动生成等。

📄 摘要（原文）

3D Human motion generation is pivotal across film, animation, gaming, and embodied intelligence. Traditional 3D motion synthesis relies on costly motion capture, while recent work shows that 2D videos provide rich, temporally coherent observations of human behavior. Existing approaches, however, either map high-level text descriptions to motion or rely solely on video conditioning, leaving a gap between generated dynamics and real-world motion statistics. We introduce MotionDuet, a multimodal framework that aligns motion generation with the distribution of video-derived representations. In this dual-conditioning paradigm, video cues extracted from a pretrained model (e.g., VideoMAE) ground low-level motion dynamics, while textual prompts provide semantic intent. To bridge the distribution gap across modalities, we propose Dual-stream Unified Encoding and Transformation (DUET) and a Distribution-Aware Structural Harmonization (DASH) loss. DUET fuses video-informed cues into the motion latent space via unified encoding and dynamic attention, while DASH aligns motion trajectories with both distributional and structural statistics of video features. An auto-guidance mechanism further balances textual and visual signals by leveraging a weakened copy of the model, enhancing controllability without sacrificing diversity. Extensive experiments demonstrate that MotionDuet generates realistic and controllable human motions, surpassing strong state-of-the-art baselines.

MotionDuet: Dual-Conditioned 3D Human Motion Generation with Video-Regularized Text Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册