EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR
作者: Zhenyu Li, Sai Kumar Dwivedi, Filip Maric, Carlos Chacon, Nadine Bertsch, Filippo Arcadu, Tomas Hodan, Michael Ramamonjisoa, Peter Wonka, Amy Zhao, Robin Kips, Cem Keskin, Anastasia Tkach, Chenhongyi Yang
分类: cs.CV, cs.GR, cs.HC
发布日期: 2026-03-04
备注: Accepted to CVPR 2026
💡 一句话要点
EgoPoseFormer v2:用于AR/VR的精准第一人称视角人体运动估计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 第一人称视角 人体运动估计 Transformer 自动标注 半监督学习
📋 核心要点
- 第一人称视角人体运动估计面临视角遮挡、数据稀缺等挑战,现有方法难以保证精度和时序一致性。
- EgoPoseFormer v2通过Transformer模型和自动标注系统,实现更精准、时序稳定的第一人称视角人体运动估计。
- 实验表明,该方法在精度和时序稳定性上显著优于现有方法,并在EgoBody3M数据集上取得了SOTA结果。
📝 摘要(中文)
第一人称视角的人体运动估计对于AR/VR体验至关重要,但由于视角局限、频繁遮挡和标注数据稀缺而极具挑战。我们提出了EgoPoseFormer v2,通过两个关键贡献来解决这些挑战:(1) 一个基于Transformer的模型,用于时序一致且空间定位的人体姿态估计;(2) 一个自动标注系统,能够利用大量未标注数据集进行训练。我们的模型是完全可微的,引入了身份条件查询、多视角空间细化、因果时序注意力,并在恒定的计算预算下支持关键点和参数化人体表示。该自动标注系统通过不确定性感知的半监督训练将学习扩展到数千万帧未标注数据。该系统遵循教师-学生模式生成伪标签,并通过不确定性蒸馏指导训练,使模型能够泛化到不同的环境。在EgoBody3M基准测试中,我们的模型在GPU上以0.8毫秒的延迟,在准确率方面优于两种最先进的方法12.2%和19.4%,并减少了22.2%和51.7%的时序抖动。此外,我们的自动标注系统进一步将手腕MPJPE提高了13.1%。
🔬 方法详解
问题定义:论文旨在解决第一人称视角下人体运动估计的难题。现有方法在处理遮挡、视角局限以及缺乏标注数据的情况下,难以实现高精度和时序一致性的姿态估计,尤其是在AR/VR等对实时性要求高的应用中。
核心思路:论文的核心思路是利用Transformer模型强大的时序建模能力和空间推理能力,结合自动标注系统来扩充训练数据,从而提升模型在第一人称视角下的姿态估计性能。通过身份条件查询、多视角空间细化和因果时序注意力等机制,增强模型的鲁棒性和准确性。
技术框架:EgoPoseFormer v2的整体框架包含两个主要部分:一是基于Transformer的姿态估计模型,二是自动标注系统。姿态估计模型接收第一人称视角的图像序列作为输入,输出人体姿态(关键点或参数化人体模型)。自动标注系统则利用教师-学生模型,从未标注数据中生成伪标签,用于训练姿态估计模型。
关键创新:论文的关键创新在于将Transformer架构应用于第一人称视角人体运动估计,并设计了身份条件查询、多视角空间细化和因果时序注意力等模块,以提升模型的性能。此外,自动标注系统通过不确定性蒸馏,有效地利用了大量未标注数据,进一步提升了模型的泛化能力。
关键设计:在Transformer模型中,身份条件查询用于区分不同个体的姿态,多视角空间细化利用不同视角的特征来提升姿态估计的准确性,因果时序注意力则保证了时序一致性。自动标注系统中,教师模型生成伪标签,学生模型学习教师模型的输出,并通过不确定性蒸馏来减少伪标签的噪声。损失函数包括姿态估计损失和不确定性蒸馏损失。
🖼️ 关键图片
📊 实验亮点
EgoPoseFormer v2在EgoBody3M基准测试中取得了显著的性能提升。在GPU上以0.8毫秒的延迟下,准确率分别超越了两种SOTA方法12.2%和19.4%,时序抖动分别降低了22.2%和51.7%。此外,通过自动标注系统,手腕MPJPE进一步提升了13.1%,表明该方法在精度、速度和时序稳定性方面均具有优势。
🎯 应用场景
该研究成果可广泛应用于AR/VR、人机交互、运动分析等领域。在AR/VR中,可以实现更自然、更沉浸式的用户体验。在人机交互中,可以实现更精准的人体姿态识别和动作捕捉。在运动分析中,可以用于评估运动表现和提供个性化训练建议。未来,该技术有望进一步拓展到智能家居、远程医疗等领域。
📄 摘要(原文)
Egocentric human motion estimation is essential for AR/VR experiences, yet remains challenging due to limited body coverage from the egocentric viewpoint, frequent occlusions, and scarce labeled data. We present EgoPoseFormer v2, a method that addresses these challenges through two key contributions: (1) a transformer-based model for temporally consistent and spatially grounded body pose estimation, and (2) an auto-labeling system that enables the use of large unlabeled datasets for training. Our model is fully differentiable, introduces identity-conditioned queries, multi-view spatial refinement, causal temporal attention, and supports both keypoints and parametric body representations under a constant compute budget. The auto-labeling system scales learning to tens of millions of unlabeled frames via uncertainty-aware semi-supervised training. The system follows a teacher-student schema to generate pseudo-labels and guide training with uncertainty distillation, enabling the model to generalize to different environments. On the EgoBody3M benchmark, with a 0.8 ms latency on GPU, our model outperforms two state-of-the-art methods by 12.2% and 19.4% in accuracy, and reduces temporal jitter by 22.2% and 51.7%. Furthermore, our auto-labeling system further improves the wrist MPJPE by 13.1%.