Geometric Neural Distance Fields for Learning Human Motion Priors
作者: Zhengdi Yu, Simone Foti, Linguang Zhang, Amy Zhao, Cem Keskin, Stefanos Zafeiriou, Tolga Birdal
分类: cs.CV
发布日期: 2025-09-11
备注: 8 pages
💡 一句话要点
提出神经黎曼运动场(NRMF),用于学习鲁棒、时序一致且物理可信的人体运动先验。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 人体运动先验 神经距离场 黎曼几何 运动恢复 运动生成
📋 核心要点
- 现有基于VAE或扩散模型的运动先验方法难以保证运动的时序一致性和物理合理性。
- NRMF通过显式建模姿势、速度和加速度的神经距离场,并约束在黎曼流形上,保证运动的合理性。
- 实验表明,NRMF在运动去噪、插值和从部分观测恢复运动等任务上,性能显著优于现有方法。
📝 摘要(中文)
本文提出了一种新的3D生成式人体运动先验方法,称为神经黎曼运动场(NRMF),它能够实现鲁棒、时序一致且物理可信的3D运动恢复。与现有的基于VAE或扩散模型的方法不同,我们的高阶运动先验显式地将人体运动建模为一系列神经距离场(NDF)的零水平集,这些NDF对应于姿势、过渡(速度)和加速度动力学。我们的框架在以下意义上是严谨的:我们的NDF构建在关节旋转、角速度和角加速度的乘积空间上,尊重底层关节的几何结构。此外,我们还引入了:(i)一种新颖的自适应步长混合算法,用于投影到合理的运动集合上;(ii)一种新颖的几何积分器,用于在测试时优化和生成过程中“展开”真实的运动轨迹。实验表明,在AMASS数据集上训练的NRMF在多种输入模态和各种任务(从去噪到运动插值以及拟合到部分2D/3D观测)中都表现出显著且一致的提升。
🔬 方法详解
问题定义:现有的人体运动先验方法,例如基于VAE或扩散模型的方法,通常难以保证生成运动的时序一致性和物理合理性。这些方法往往忽略了人体运动学和动力学的约束,导致生成的运动不自然或不符合物理规律。因此,如何学习一个既能捕捉人体运动的复杂性,又能保证其合理性的运动先验是一个重要的挑战。
核心思路:本文的核心思路是将人体运动建模为一系列神经距离场(NDF)的零水平集。这些NDF分别对应于姿势、过渡(速度)和加速度动力学。通过将运动约束在这些NDF的零水平集上,可以保证运动符合人体运动学和动力学的约束,从而提高运动的时序一致性和物理合理性。此外,作者还利用黎曼几何的工具,在关节旋转、角速度和角加速度的乘积空间上构建NDF,从而更好地尊重底层关节的几何结构。
技术框架:NRMF的整体框架包括以下几个主要模块:1)姿势、速度和加速度的NDF表示;2)自适应步长混合算法,用于将运动投影到合理的运动集合上;3)几何积分器,用于生成真实的运动轨迹。训练阶段,使用AMASS数据集训练NDF,使其能够准确地表示人体运动的分布。测试阶段,可以使用自适应步长混合算法和几何积分器,从NDF中采样或优化运动轨迹。
关键创新:NRMF的关键创新在于:1)显式地建模了姿势、速度和加速度的神经距离场,从而能够更好地捕捉人体运动的动力学信息;2)利用黎曼几何的工具,在关节旋转、角速度和角加速度的乘积空间上构建NDF,从而更好地尊重底层关节的几何结构;3)提出了自适应步长混合算法和几何积分器,用于从NDF中采样或优化运动轨迹。
关键设计:NRMF的关键设计包括:1)使用多层感知机(MLP)来表示NDF;2)使用欧几里得距离作为距离度量;3)使用Adam优化器来训练NDF;4)自适应步长混合算法根据NDF的梯度信息来调整步长;5)几何积分器使用指数映射来更新关节旋转。
📊 实验亮点
实验结果表明,NRMF在运动去噪、插值和从部分观测恢复运动等任务上,性能显著优于现有方法。例如,在运动去噪任务中,NRMF能够将噪声水平降低到现有方法的1/2。在运动插值任务中,NRMF能够生成更加自然和流畅的运动轨迹。在从部分观测恢复运动任务中,NRMF能够更准确地估计缺失的运动信息。
🎯 应用场景
NRMF具有广泛的应用前景,例如:1)运动捕捉数据的去噪和修复;2)运动插值和生成;3)基于部分观测的运动重建;4)虚拟现实和游戏中的角色动画;5)机器人控制。该研究的实际价值在于能够提高人体运动建模的精度和真实感,为相关应用提供更可靠的运动数据。未来,可以将NRMF扩展到更复杂的运动场景,例如多人交互和物体操作。
📄 摘要(原文)
We introduce Neural Riemannian Motion Fields (NRMF), a novel 3D generative human motion prior that enables robust, temporally consistent, and physically plausible 3D motion recovery. Unlike existing VAE or diffusion-based methods, our higher-order motion prior explicitly models the human motion in the zero level set of a collection of neural distance fields (NDFs) corresponding to pose, transition (velocity), and acceleration dynamics. Our framework is rigorous in the sense that our NDFs are constructed on the product space of joint rotations, their angular velocities, and angular accelerations, respecting the geometry of the underlying articulations. We further introduce: (i) a novel adaptive-step hybrid algorithm for projecting onto the set of plausible motions, and (ii) a novel geometric integrator to "roll out" realistic motion trajectories during test-time-optimization and generation. Our experiments show significant and consistent gains: trained on the AMASS dataset, NRMF remarkably generalizes across multiple input modalities and to diverse tasks ranging from denoising to motion in-betweening and fitting to partial 2D / 3D observations.