Ego-Exo 3D Hand Tracking in the Wild with a Mobile Multi-Camera Rig

作者: Patrick Rim, Kun He, Kevin Harris, Braden Copple, Shangchen Han, Sizhe An, Ivan Shugurov, Tomas Hodan, He Wen, Xu Xie

分类: cs.CV

发布日期: 2025-10-02

💡 一句话要点

提出一种移动多相机系统，用于在真实场景中进行ego-exo 3D手部追踪。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D手部追踪 多相机系统 自向视角 外向视角 真实场景 数据集 人机交互

📋 核心要点

现有的手部3D追踪数据集主要在受控实验室环境中采集，环境多样性不足，模型泛化能力受限。
设计了一种结合外向和自向视角的移动多相机系统，用于在真实场景中捕获高质量的3D手部姿态数据。
通过实验验证，该方法能够在保证3D标注精度的同时，显著提升环境的真实性。

📝 摘要（中文）

本文提出了一种新颖的无标记多相机系统，旨在捕获精确的3D手部和物体，从而实现在真实场景中几乎不受约束的移动。该系统结合了一个轻量级的背负式采集装置（包含八个外向相机）和一个用户佩戴的Meta Quest 3头显（提供两个以自我为中心的视角）。设计了一种ego-exo追踪流程，从该系统生成精确的3D手部姿态真值，并严格评估其质量。通过收集包含同步多视角图像和精确3D手部姿态的标注数据集，证明了该方法能够显著减少环境真实性和3D标注精度之间的权衡。

🔬 方法详解

问题定义：现有3D手部追踪数据集主要在实验室环境下采集，缺乏真实场景的多样性，导致模型在实际应用中泛化能力不足。如何在真实、不受约束的环境中，高精度地获取3D手部姿态数据是一个关键问题。

核心思路：论文的核心思路是利用多相机系统，结合自向视角（egocentric）和外向视角（exocentric）的信息，构建一个鲁棒的3D手部追踪系统。通过多视角的互补信息，可以克服单一视角下的遮挡、光照变化等问题，提高追踪精度。

技术框架：该系统主要包含以下几个部分：1) 一个轻量级的背负式采集装置，包含8个外向相机，用于从外部视角捕捉手部和环境信息；2) 一个用户佩戴的Meta Quest 3头显，提供两个自向视角，捕捉用户主观视角下的手部动作；3) 一个ego-exo追踪流程，用于融合多视角信息，生成精确的3D手部姿态真值。该流程可能包含相机标定、多视角重建、手部姿态估计等步骤。

关键创新：该论文的关键创新在于构建了一个能够在真实场景中进行3D手部追踪的移动多相机系统。通过结合自向和外向视角，以及精细的标定和追踪流程，实现了在复杂环境下的高精度3D手部姿态估计。这种系统设计能够显著提升数据集的环境真实性，并为训练更具泛化能力的3D手部追踪模型提供数据支持。

关键设计：论文中可能包含以下关键设计：1) 相机标定方法，确保多视角图像之间的精确对齐；2) 多视角融合算法，用于将不同视角的图像信息融合，提高手部姿态估计的鲁棒性；3) 手部姿态估计模型，用于从图像中提取手部关键点或姿态参数；4) 损失函数设计，用于优化手部姿态估计模型的性能。具体的参数设置和网络结构等细节需要在论文中进一步查找。

📊 实验亮点

论文构建了一个包含同步多视角图像和精确3D手部姿态标注的数据集，该数据集能够显著减少环境真实性和3D标注精度之间的权衡。具体的性能数据（如手部姿态估计的精度指标）和对比基线需要在论文中进一步查找。

🎯 应用场景

该研究成果可广泛应用于人机交互、虚拟现实/增强现实、机器人控制等领域。例如，在VR/AR游戏中，可以实现更自然、更精确的手部交互；在机器人控制中，可以利用手部追踪技术实现远程操作或示教学习；在医疗康复领域，可以用于评估和训练患者的手部功能。

📄 摘要（原文）

Accurate 3D tracking of hands and their interactions with the world in unconstrained settings remains a significant challenge for egocentric computer vision. With few exceptions, existing datasets are predominantly captured in controlled lab setups, limiting environmental diversity and model generalization. To address this, we introduce a novel marker-less multi-camera system designed to capture precise 3D hands and objects, which allows for nearly unconstrained mobility in genuinely in-the-wild conditions. We combine a lightweight, back-mounted capture rig with eight exocentric cameras, and a user-worn Meta Quest 3 headset, which contributes two egocentric views. We design an ego-exo tracking pipeline to generate accurate 3D hand pose ground truth from this system, and rigorously evaluate its quality. By collecting an annotated dataset featuring synchronized multi-view images and precise 3D hand poses, we demonstrate the capability of our approach to significantly reduce the trade-off between environmental realism and 3D annotation accuracy.

Ego-Exo 3D Hand Tracking in the Wild with a Mobile Multi-Camera Rig

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册