EVI-SAM: Robust, Real-time, Tightly-coupled Event-Visual-Inertial State Estimation and 3D Dense Mapping

📄 arXiv: 2312.11911v3 📥 PDF

作者: Weipeng Guan, Peiyu Chen, Huibin Zhao, Yu Wang, Peng Lu

分类: cs.CV, cs.RO

发布日期: 2023-12-19 (更新: 2024-05-23)


💡 一句话要点

EVI-SAM:稳健、实时的事件-视觉-惯性紧耦合状态估计与3D稠密建图

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 事件相机 SLAM 位姿估计 3D重建 稠密建图 事件视觉惯性融合 非线性优化

📋 核心要点

  1. 传统视觉SLAM在运动模糊和高动态范围场景下表现不佳,事件相机作为一种新型传感器,具有解决这些问题的潜力。
  2. EVI-SAM提出了一种基于事件的混合跟踪框架,结合特征匹配的鲁棒性和直接对齐的精度,实现更准确的位姿估计。
  3. 该方法通过图像引导的事件映射恢复场景的稠密深度,并使用TSDF融合重建3D场景,在公开数据集和自采集数据集上验证了其优越性。

📝 摘要(中文)

本文提出了一种名为EVI-SAM的系统,旨在利用单目事件相机解决6自由度位姿跟踪和3D重建问题。该系统设计了一种新颖的基于事件的混合跟踪框架,该框架利用特征匹配的鲁棒性和直接对齐的精度来估计位姿。具体而言,我们开发了一种基于事件的2D-2D对齐方法来构建光度约束,并将其与基于事件的重投影约束紧密集成。映射模块通过图像引导的基于事件的映射方法恢复场景的稠密彩色深度。随后,通过使用截断符号距离函数(TSDF)融合来自多个视点的稠密深度图,可以重建3D场景的外观、纹理和表面网格。据我们所知,这是第一个实现基于事件的稠密建图的非学习方法。在公开和自采集数据集上进行的数值评估,定性和定量地证明了我们方法的优越性能。我们的EVI-SAM有效地平衡了准确性和鲁棒性,同时保持了计算效率,在具有挑战性的场景中展示了卓越的位姿跟踪和稠密建图性能。

🔬 方法详解

问题定义:现有视觉SLAM方法在高速运动、光照变化剧烈等场景下容易失效,而事件相机能够提供互补的信息。因此,本文旨在利用事件相机实现稳健、实时的6自由度位姿跟踪和3D稠密建图,解决传统视觉SLAM在挑战性场景下的不足。

核心思路:EVI-SAM的核心思路是结合事件相机的优势,设计一种混合跟踪框架,同时利用特征匹配和直接对齐两种方法。特征匹配提供鲁棒性,直接对齐提供精度,二者紧密结合,从而实现更准确的位姿估计。此外,利用图像引导的事件映射方法恢复稠密深度,实现3D场景的重建。

技术框架:EVI-SAM系统主要包含两个模块:跟踪模块和映射模块。跟踪模块负责估计相机的位姿,采用基于事件的混合跟踪框架,包括基于事件的2D-2D对齐和基于事件的重投影约束。映射模块负责重建3D场景,采用图像引导的事件映射方法恢复稠密深度,并使用TSDF融合重建3D模型。

关键创新:EVI-SAM的关键创新在于提出了一种基于事件的混合跟踪框架,该框架将特征匹配和直接对齐两种方法紧密结合,充分利用了事件相机的优势。此外,该方法还提出了一种图像引导的事件映射方法,能够有效地恢复场景的稠密深度。据作者所知,这是第一个实现基于事件的稠密建图的非学习方法。

关键设计:在跟踪模块中,基于事件的2D-2D对齐通过最小化光度误差来优化位姿。基于事件的重投影约束则利用事件的极线几何关系来优化位姿。在映射模块中,图像引导的事件映射方法利用图像信息来约束事件的深度估计,从而提高深度估计的准确性。TSDF融合采用标准的TSDF算法,将来自多个视点的深度图融合到统一的3D模型中。

📊 实验亮点

EVI-SAM在公开数据集和自采集数据集上进行了评估,结果表明该方法在位姿估计和3D重建方面都取得了优越的性能。与现有的基于事件的SLAM方法相比,EVI-SAM在准确性和鲁棒性方面都有显著提升。此外,EVI-SAM还实现了实时的性能,能够满足实际应用的需求。

🎯 应用场景

EVI-SAM具有广泛的应用前景,例如在无人机、机器人等需要在高速运动、光照变化剧烈等挑战性场景下进行自主导航和环境感知的应用中。该方法可以提供稳健、实时的位姿估计和3D地图,为这些应用提供可靠的基础。此外,该方法还可以应用于虚拟现实、增强现实等领域,提供更真实、更沉浸式的体验。

📄 摘要(原文)

Event cameras are bio-inspired, motion-activated sensors that demonstrate substantial potential in handling challenging situations, such as motion blur and high-dynamic range. In this paper, we proposed EVI-SAM to tackle the problem of 6 DoF pose tracking and 3D reconstruction using monocular event camera. A novel event-based hybrid tracking framework is designed to estimate the pose, leveraging the robustness of feature matching and the precision of direct alignment. Specifically, we develop an event-based 2D-2D alignment to construct the photometric constraint, and tightly integrate it with the event-based reprojection constraint. The mapping module recovers the dense and colorful depth of the scene through the image-guided event-based mapping method. Subsequently, the appearance, texture, and surface mesh of the 3D scene can be reconstructed by fusing the dense depth map from multiple viewpoints using truncated signed distance function (TSDF) fusion. To the best of our knowledge, this is the first non-learning work to realize event-based dense mapping. Numerical evaluations are performed on both publicly available and self-collected datasets, which qualitatively and quantitatively demonstrate the superior performance of our method. Our EVI-SAM effectively balances accuracy and robustness while maintaining computational efficiency, showcasing superior pose tracking and dense mapping performance in challenging scenarios. Video Demo: https://youtu.be/Nn40U4e5Si8.