Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera
作者: Tutian Tang, Xingyu Ji, Yutong Li, MingHao Liu, Wenqiang Xu, Cewu Lu
分类: cs.CV
发布日期: 2026-03-02
备注: The code, data, and supplementary materials are available at \url{https://sites.google.com/view/stereo-inertial-poser}. Accepted to ICRA 2026
💡 一句话要点
提出Stereo-Inertial Poser,利用双目相机和稀疏IMU实现高精度、体型感知的运动捕捉
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 运动捕捉 双目视觉 惯性测量单元 人体姿态估计 体型感知 实时系统 视觉惯性融合
📋 核心要点
- 单目相机结合稀疏IMU的运动捕捉系统存在全局平移的度量不准确和忽略人体测量变化的体型无关局部运动估计问题。
- Stereo-Inertial Poser利用双目视觉解决深度模糊,直接提取3D关键点和估计体型参数,并融合IMU数据进行漂移补偿。
- 该系统实现了超过200FPS的实时性能,并在多个数据集上取得了state-of-the-art的结果,有效减少了脚部滑动效应。
📝 摘要(中文)
本文提出了一种名为Stereo-Inertial Poser的实时运动捕捉系统,该系统利用单个双目相机和六个IMU来估计具有度量精度和体型感知的3D人体运动。通过用双目视觉取代单目RGB,系统通过校准后的基线几何解决了深度模糊问题,从而能够直接提取3D关键点和估计身体形状参数。融合IMU数据和视觉线索,用于预测漂移补偿的关节位置和根部运动,同时,一种新颖的体型感知融合模块动态地协调人体测量变化与全局平移。我们的端到端流程实现了超过200 FPS的速度,无需基于优化的后处理,从而实现了实时部署。在各种数据集上的定量评估表明,该系统达到了最先进的性能。定性结果表明,该方法在长时间记录下产生无漂移的全局平移,并减少了脚部滑动效应。
🔬 方法详解
问题定义:现有基于单目视觉和稀疏IMU的运动捕捉系统在全局平移上存在度量不准确的问题,这是由于单目视觉固有的深度模糊性导致的。此外,这些系统通常忽略了个体之间的人体测量差异,导致局部运动估计不准确。因此,需要一种能够提供度量精度并感知体型的运动捕捉系统。
核心思路:本文的核心思路是利用双目视觉来消除深度模糊性,从而实现准确的3D关键点提取和体型参数估计。同时,融合IMU数据可以提供运动的惯性信息,用于漂移补偿和更鲁棒的运动估计。通过一个体型感知的融合模块,系统能够动态地协调人体测量变化与全局平移,从而提高整体的运动捕捉精度。
技术框架:Stereo-Inertial Poser系统包含以下几个主要模块:1) 双目视觉模块,用于提取3D关键点和估计体型参数;2) IMU数据处理模块,用于提供运动的惯性信息;3) 融合模块,将视觉和惯性信息融合,预测漂移补偿的关节位置和根部运动;4) 体型感知融合模块,动态协调人体测量变化与全局平移。整个流程是一个端到端的pipeline,无需优化后处理。
关键创新:该论文的关键创新在于:1) 使用双目视觉取代单目视觉,解决了深度模糊问题,实现了度量精度的运动捕捉;2) 提出了一个体型感知的融合模块,能够动态地协调人体测量变化与全局平移,提高了运动捕捉的准确性;3) 实现了一个实时的端到端系统,无需优化后处理,具有很高的实用价值。
关键设计:具体的网络结构和损失函数细节在论文中未明确给出,属于未知信息。但可以推测,双目视觉模块可能包含深度估计网络或直接三角化方法。融合模块可能采用卡尔曼滤波或类似的融合算法。体型感知融合模块的设计需要考虑如何将体型参数信息有效地融入到运动估计中,可能涉及到注意力机制或类似的动态权重调整方法。损失函数的设计需要同时考虑3D关键点的位置误差、IMU数据的匹配程度以及体型参数的准确性。
🖼️ 关键图片
📊 实验亮点
该系统在多个数据集上进行了定量评估,结果表明其性能达到了state-of-the-art水平。定性结果表明,该方法在长时间记录下能够产生无漂移的全局平移,并有效减少了脚部滑动效应。此外,该系统实现了超过200 FPS的实时性能,无需基于优化的后处理,使其具有很高的实用价值。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏、动画制作、运动分析、康复训练等领域。高精度、体型感知的运动捕捉能够提供更逼真、更个性化的用户体验,例如在VR游戏中,用户的虚拟化身可以更准确地反映用户的真实动作和体型。在运动分析和康复训练中,可以更精确地评估运动姿态和效果。
📄 摘要(原文)
Recent advancements in visual-inertial motion capture systems have demonstrated the potential of combining monocular cameras with sparse inertial measurement units (IMUs) as cost-effective solutions, which effectively mitigate occlusion and drift issues inherent in single-modality systems. However, they are still limited by metric inaccuracies in global translations stemming from monocular depth ambiguity, and shape-agnostic local motion estimations that ignore anthropometric variations. We present Stereo-Inertial Poser, a real-time motion capture system that leverages a single stereo camera and six IMUs to estimate metric-accurate and shape-aware 3D human motion. By replacing the monocular RGB with stereo vision, our system resolves depth ambiguity through calibrated baseline geometry, enabling direct 3D keypoint extraction and body shape parameter estimation. IMU data and visual cues are fused for predicting drift-compensated joint positions and root movements, while a novel shape-aware fusion module dynamically harmonizes anthropometry variations with global translations. Our end-to-end pipeline achieves over 200 FPS without optimization-based post-processing, enabling real-time deployment. Quantitative evaluations across various datasets demonstrate state-of-the-art performance. Qualitative results show our method produces drift-free global translation under a long recording time and reduces foot-skating effects.