Mem-MLP: Real-Time 3D Human Motion Generation from Sparse Inputs

📄 arXiv: 2511.16264v1 📥 PDF

作者: Sinan Mutlu, Georgios F. Angelis, Savas Ozkan, Paul Wisbey, Anastasios Drosou, Mete Ozay

分类: cs.CV

发布日期: 2025-11-20


💡 一句话要点

Mem-MLP:基于稀疏输入的实时3D人体动作生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)

关键词: 3D人体动作生成 稀疏输入 多层感知机 Memory-Block 多任务学习 实时性能 AR/VR 动作捕捉

📋 核心要点

  1. 现有全身动作捕捉系统依赖头部和手部追踪,导致在AR/VR应用中全身重建不完整,面临挑战。
  2. 论文提出一种基于MLP的解决方案,通过Memory-Block模块利用可训练代码向量处理缺失数据,提升时间一致性。
  3. 实验表明,该方法在精度上优于现有技术,并在移动HMD上实现了72 FPS的实时性能。

📝 摘要(中文)

本文提出了一种基于多层感知机(MLP)的实时3D人体动作生成方法,旨在解决增强现实/虚拟现实(AR/VR)应用中全身动作捕捉不完整的问题。该方法利用残差连接和一种名为Memory-Block的新型神经网络组件增强MLP骨干网络。Memory-Block使用可训练的代码向量表示缺失的传感器数据,并结合先前时间步的稀疏信号,从而提高时间一致性。此外,该方法将问题建模为多任务学习问题,使MLP骨干网络能够学习鲁棒的表示,从而提高准确性。实验结果表明,该方法优于现有技术,显著降低了预测误差,并在移动头戴设备(HMD)上实现了72 FPS,从而提高了精度-运行时间的权衡。

🔬 方法详解

问题定义:论文旨在解决在AR/VR环境中,仅依靠有限的传感器(如头显和手柄)进行全身动作捕捉时,如何从稀疏的输入数据中生成完整、逼真且时间一致的3D人体动作的问题。现有方法通常难以在精度和实时性之间取得平衡,且对缺失数据的处理不够鲁棒。

核心思路:论文的核心思路是利用一个增强的多层感知机(MLP)网络,结合一个新颖的Memory-Block模块,来学习从稀疏输入到完整人体动作的映射。Memory-Block负责记忆和补充缺失的传感器信息,并通过与历史信息的结合,保证生成动作的时间一致性。多任务学习框架则用于提升模型的泛化能力和鲁棒性。

技术框架:整体框架包含以下几个主要部分:1) 稀疏输入数据预处理;2) MLP骨干网络,负责从输入数据中提取特征;3) Memory-Block模块,用于处理缺失数据并增强时间一致性;4) 多任务学习框架,同时预测多个相关任务(例如,关节角度、速度等);5) 输出完整的人体动作。

关键创新:最重要的技术创新点在于Memory-Block模块的设计。与传统的插值或补全方法不同,Memory-Block使用可训练的代码向量来表示缺失的传感器数据,并通过学习的方式来优化这些代码向量,从而更好地适应不同的缺失模式。此外,多任务学习框架也有助于提升模型的泛化能力和鲁棒性。

关键设计:Memory-Block的具体实现细节包括:使用多个可训练的代码向量来表示不同的缺失模式;使用注意力机制来选择合适的代码向量;使用残差连接来加速训练并提升性能。损失函数方面,采用了多任务学习的损失函数,包括关节角度预测损失、速度预测损失等。网络结构方面,MLP骨干网络采用了多层全连接层,并使用了ReLU激活函数。

📊 实验亮点

实验结果表明,该方法在3D人体动作生成任务上显著优于现有技术。具体而言,该方法在预测误差方面取得了显著降低,并在移动头戴设备上实现了72 FPS的实时性能。这表明该方法在精度和效率之间取得了良好的平衡,使其适用于实际的AR/VR应用。

🎯 应用场景

该研究成果可广泛应用于AR/VR游戏、虚拟化身、远程协作、运动分析、康复训练等领域。通过仅使用有限的传感器,即可实现高质量的全身动作捕捉,降低了硬件成本和使用门槛,为用户提供更沉浸式的交互体验。未来,该技术有望进一步扩展到其他领域,如机器人控制、动画制作等。

📄 摘要(原文)

Realistic and smooth full-body tracking is crucial for immersive AR/VR applications. Existing systems primarily track head and hands via Head Mounted Devices (HMDs) and controllers, making the 3D full-body reconstruction in-complete. One potential approach is to generate the full-body motions from sparse inputs collected from limited sensors using a Neural Network (NN) model. In this paper, we propose a novel method based on a multi-layer perceptron (MLP) backbone that is enhanced with residual connections and a novel NN-component called Memory-Block. In particular, Memory-Block represents missing sensor data with trainable code-vectors, which are combined with the sparse signals from previous time instances to improve the temporal consistency. Furthermore, we formulate our solution as a multi-task learning problem, allowing our MLP-backbone to learn robust representations that boost accuracy. Our experiments show that our method outperforms state-of-the-art baselines by substantially reducing prediction errors. Moreover, it achieves 72 FPS on mobile HMDs that ultimately improves the accuracy-running time tradeoff.