MultiEgo: A Multi-View Egocentric Video Dataset for 4D Scene Reconstruction

作者: Bate Li, Houqiang Zhong, Zhengxue Cheng, Qiang Hu, Qiang Wang, Li Song, Wenjun Zhang

分类: cs.CV

发布日期: 2025-12-12

备注: ACM MM 2025 Dataset Track

DOI: 10.1145/3746027.3758232

💡 一句话要点

提出MultiEgo：用于4D场景重建的多视角第一人称视频数据集

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 多视角视频 第一人称视角 动态场景重建 4D重建 自由视点视频

📋 核心要点

现有动态场景重建数据集缺乏多视角第一人称数据，限制了社交互动场景的真实感重建。
MultiEgo数据集通过多视角AR眼镜捕捉真实社交互动，提供亚毫秒级同步和精确姿态标注。
实验验证表明，MultiEgo数据集在自由视点视频应用中有效，为相关研究提供基础资源。

📝 摘要（中文）

多视角第一人称动态场景重建对于社交互动全息记录等应用具有重要的研究价值。然而，现有的重建数据集主要集中于静态多视角或单视角第一人称设置，缺乏用于动态场景重建的多视角第一人称数据集。因此，我们提出了MultiEgo，这是首个用于4D动态场景重建的多视角第一人称数据集。该数据集包含五个典型的社交互动场景：会议、表演和演示。每个场景提供五个由参与者佩戴AR眼镜捕获的真实第一人称视频。我们设计了一个基于硬件的数据采集系统和处理流程，实现了跨视角亚毫秒级的时间同步，并配有精确的姿态标注。实验验证表明，我们的数据集在自由视点视频（FVV）应用中具有实际效用和有效性，使MultiEgo成为推进多视角第一人称动态场景重建研究的基础资源。

🔬 方法详解

问题定义：现有的动态场景重建数据集主要集中于静态多视角或单视角第一人称设置，缺乏能够捕捉真实社交互动场景的多视角第一人称数据集。这限制了相关研究在真实场景下的应用，例如自由视点视频、社交行为分析等。现有方法的痛点在于无法有效利用多视角信息进行动态场景的精确重建。

核心思路：MultiEgo数据集的核心思路是通过多个佩戴AR眼镜的参与者，从第一人称视角同步捕捉社交互动场景的视频。通过精确的硬件同步和姿态标注，提供高质量的多视角动态场景数据，从而促进相关算法的开发和评估。这样设计能够更真实地反映人类的感知和互动方式。

技术框架：MultiEgo数据集的构建包含以下几个主要阶段：1) 数据采集：设计基于AR眼镜的硬件系统，同步采集多个参与者的第一人称视频。2) 时间同步：采用硬件同步方案，实现亚毫秒级的时间同步精度。3) 姿态标注：使用运动捕捉系统或SLAM算法，对每个视角进行精确的姿态估计。4) 数据处理：对采集到的视频和姿态数据进行清洗、校准和格式转换，生成可用的数据集。

关键创新：MultiEgo数据集的关键创新在于它是首个面向4D动态场景重建的多视角第一人称数据集。与现有数据集相比，MultiEgo提供了更真实的社交互动场景，以及精确的时间同步和姿态标注，为相关研究提供了新的数据基础。此外，硬件同步方案和数据处理流程也具有一定的创新性。

关键设计：在数据采集方面，选择了五个典型的社交互动场景，包括会议、表演和演示，以覆盖不同的应用需求。在时间同步方面，采用了基于硬件触发的同步方案，保证了亚毫秒级的精度。在姿态标注方面，可以使用多种方法，例如运动捕捉系统或SLAM算法，根据具体场景选择合适的方案。数据集的格式和组织方式也经过精心设计，方便研究人员使用。

📊 实验亮点

实验验证表明，MultiEgo数据集在自由视点视频（FVV）应用中具有实际效用和有效性。通过使用MultiEgo数据集训练的模型，可以生成高质量的自由视点视频，从而实现更逼真的虚拟现实体验。该数据集的亚毫秒级时间同步和精确姿态标注，为相关算法的开发和评估提供了可靠的基础。

🎯 应用场景

MultiEgo数据集在自由视点视频、社交行为分析、人机交互、虚拟现实和增强现实等领域具有广泛的应用前景。通过该数据集，可以开发更真实、更自然的社交互动体验，例如远程协作、虚拟社交和沉浸式教育。此外，该数据集还可以用于研究人类的感知和行为模式，从而改进人机交互系统和社交机器人。

📄 摘要（原文）

Multi-view egocentric dynamic scene reconstruction holds significant research value for applications in holographic documentation of social interactions. However, existing reconstruction datasets focus on static multi-view or single-egocentric view setups, lacking multi-view egocentric datasets for dynamic scene reconstruction. Therefore, we present MultiEgo, the first multi-view egocentric dataset for 4D dynamic scene reconstruction. The dataset comprises five canonical social interaction scenes: meetings, performances, and a presentation. Each scene provides five authentic egocentric videos captured by participants wearing AR glasses. We design a hardware-based data acquisition system and processing pipeline, achieving sub-millisecond temporal synchronization across views, coupled with accurate pose annotations. Experiment validation demonstrates the practical utility and effectiveness of our dataset for free-viewpoint video (FVV) applications, establishing MultiEgo as a foundational resource for advancing multi-view egocentric dynamic scene reconstruction research.

MultiEgo: A Multi-View Egocentric Video Dataset for 4D Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册