Instance Tracking in 3D Scenes from Egocentric Videos

作者: Yunhan Zhao, Haoyu Ma, Shu Kong, Charless Fowlkes

分类: cs.CV

发布日期: 2023-12-07 (更新: 2024-06-07)

备注: Accepted at CVPR 2024. Also presented at First Joint Egocentric Vision (EgoVis) Workshop @ CVPR 2024

💡 一句话要点

提出IT3DEgo基准数据集与实例跟踪方法，解决以自我为中心的3D场景实例跟踪问题。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 3D实例跟踪 自我中心视频 相机姿态估计 基准数据集 目标检测

📋 核心要点

现有的单目标跟踪方法在以自我为中心的3D场景中进行实例跟踪时，没有充分利用相机姿态等信息，导致跟踪精度较低。
论文提出利用相机姿态信息，将2D跟踪结果提升到3D世界坐标系中，并结合预训练模型进行实例匹配，从而实现更准确的3D实例跟踪。
实验表明，该方法在新的IT3DEgo基准数据集上，无需微调即可显著优于基于单目标跟踪的方法，验证了该方法的有效性。

📝 摘要（中文）

本文研究了以自我为中心的视频中3D场景的实例跟踪问题(IT3DEgo)，旨在通过AR/VR设备等自我中心传感器捕获人与物体的交互，并提供任务辅助，通过回忆周围环境中感兴趣物体的3D位置。为此，作者首先引入了一个新的基准数据集，包含RGB和深度视频、每帧相机姿态以及2D相机和3D世界坐标中的实例级标注。提出了一个评估协议，在3D坐标中评估跟踪性能，包括两种实例注册设置：(1)单视图在线注册，基于穿戴者的人机交互实时指定实例；(2)多视图预注册，提前将要跟踪的实例图像存储在内存中。为了解决IT3DEgo问题，作者首先重新利用了相关领域的方法，例如，单目标跟踪(SOT)，运行SOT方法来跟踪2D帧中的实例，并使用相机姿态和深度将其提升到3D。此外，还提出了一种简单的方法，利用预训练的分割和检测模型从RGB帧生成候选框，并将候选框与注册的实例图像进行匹配。实验表明，该方法(无需微调)在以自我为中心的环境中显著优于基于SOT的方法。最后，作者认为，利用相机姿态和使用3D世界坐标表示可以简化以自我为中心的实例跟踪问题。

🔬 方法详解

问题定义：论文旨在解决以自我为中心的视频中，如何在3D场景中准确跟踪特定实例的问题。现有方法，如直接应用2D单目标跟踪算法，忽略了相机姿态和3D空间信息，导致跟踪漂移和精度下降。此外，缺乏专门的基准数据集也限制了相关研究的进展。

核心思路：论文的核心思路是利用以自我为中心视频提供的相机姿态信息，将2D图像中的跟踪结果转换到3D世界坐标系中，从而实现更鲁棒和准确的3D实例跟踪。同时，结合预训练的分割和检测模型，提取候选目标，并与预先注册的实例图像进行匹配，进一步提高跟踪的准确性。

技术框架：整体框架包含两个主要分支：1) 基于单目标跟踪(SOT)的方法：在2D图像中运行SOT算法，然后利用相机姿态和深度信息将跟踪结果提升到3D世界坐标。2) 基于预训练模型的方法：利用预训练的分割和检测模型从RGB帧中生成候选目标，然后将这些候选目标与预先注册的实例图像进行匹配。最终，通过某种融合策略（论文中未明确说明具体融合方式，未知）将两个分支的结果进行整合。

关键创新：论文的关键创新在于提出了一个专门针对以自我为中心的3D场景实例跟踪的基准数据集(IT3DEgo)，并提供了一个利用相机姿态信息进行3D跟踪的框架。与直接应用2D跟踪算法相比，该方法能够更好地利用3D空间信息，从而提高跟踪的准确性和鲁棒性。

关键设计：论文中基于预训练模型的方法，利用了预训练的分割和检测模型来生成候选目标。具体使用的模型类型和参数设置未在摘要中详细说明，未知。实例匹配的具体算法也未详细描述，未知。损失函数和网络结构等技术细节也未提及，未知。

📊 实验亮点

实验结果表明，论文提出的方法在IT3DEgo数据集上显著优于基于单目标跟踪的方法。具体性能提升幅度未在摘要中给出，未知。该方法无需微调即可取得较好的效果，表明其具有较好的泛化能力。这些结果验证了利用相机姿态信息和3D世界坐标表示进行实例跟踪的有效性。

🎯 应用场景

该研究成果可应用于AR/VR设备中的人机交互，例如，帮助用户定位和识别周围环境中的物体，提供任务指导和辅助。此外，还可应用于机器人导航、智能家居等领域，提高机器人或智能设备的感知能力和交互能力。未来，该技术有望在工业、医疗等领域发挥重要作用。

📄 摘要（原文）

Egocentric sensors such as AR/VR devices capture human-object interactions and offer the potential to provide task-assistance by recalling 3D locations of objects of interest in the surrounding environment. This capability requires instance tracking in real-world 3D scenes from egocentric videos (IT3DEgo). We explore this problem by first introducing a new benchmark dataset, consisting of RGB and depth videos, per-frame camera pose, and instance-level annotations in both 2D camera and 3D world coordinates. We present an evaluation protocol which evaluates tracking performance in 3D coordinates with two settings for enrolling instances to track: (1) single-view online enrollment where an instance is specified on-the-fly based on the human wearer's interactions. and (2) multi-view pre-enrollment where images of an instance to be tracked are stored in memory ahead of time. To address IT3DEgo, we first re-purpose methods from relevant areas, e.g., single object tracking (SOT) -- running SOT methods to track instances in 2D frames and lifting them to 3D using camera pose and depth. We also present a simple method that leverages pretrained segmentation and detection models to generate proposals from RGB frames and match proposals with enrolled instance images. Our experiments show that our method (with no finetuning) significantly outperforms SOT-based approaches in the egocentric setting. We conclude by arguing that the problem of egocentric instance tracking is made easier by leveraging camera pose and using a 3D allocentric (world) coordinate representation.

Instance Tracking in 3D Scenes from Egocentric Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册