Deep Event Visual Odometry
作者: Simon Klenk, Marvin Motzet, Lukas Koestler, Daniel Cremers
分类: cs.CV, cs.RO
发布日期: 2023-12-15
备注: Accepted by 3DV 2024
🔗 代码/项目: GITHUB
💡 一句话要点
DEVO:一种高性能的单目事件相机视觉里程计系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 事件相机 视觉里程计 深度学习 位姿估计 单目视觉
📋 核心要点
- 现有基于事件相机的单目视觉里程计在复杂场景下性能受限,通常需要依赖额外的IMU或立体相机。
- DEVO通过深度学习方法选择关键事件块进行稀疏跟踪,避免了对额外传感器的依赖,提升了单目事件相机的性能。
- DEVO在多个真实数据集上显著降低了位姿跟踪误差,性能超越或接近立体视觉或惯性导航系统。
📝 摘要(中文)
事件相机在高动态和恶劣光照条件下进行位姿估计具有巨大潜力。然而,现有的基于事件的单目视觉里程计(VO)方法在最新的基准测试中表现有限。为了解决这个问题,一些方法依赖额外的传感器,如IMU、立体事件相机或帧相机。这些额外的传感器增加了成本并复杂化了系统需求,限制了事件相机在现实设备中的应用。此外,依赖帧相机容易受到运动模糊和HDR的影响。为了消除对额外传感器的依赖,并充分利用单个事件相机,我们提出了Deep Event VO (DEVO),这是第一个在大量真实基准测试中表现出色的单目事件相机系统。DEVO稀疏地跟踪随时间选择的事件块。DEVO的关键组成部分是一种针对事件数据定制的新型深度块选择机制。与仅使用事件的方法相比,我们在七个真实基准测试中显著降低了高达97%的位姿跟踪误差,并且通常超过或接近立体或惯性方法。
🔬 方法详解
问题定义:现有的基于事件相机的单目视觉里程计方法在真实场景中表现不佳,通常需要额外的IMU、立体事件相机或帧相机来辅助位姿估计。这些额外的传感器增加了系统的成本和复杂度,限制了事件相机在实际应用中的部署。此外,依赖帧相机的系统容易受到运动模糊和高动态范围(HDR)的影响。
核心思路:DEVO的核心思路是仅使用单个事件相机,通过深度学习方法选择信息量丰富的事件块进行稀疏跟踪,从而实现高精度的位姿估计。通过学习事件数据的特征,DEVO能够有效地选择对位姿估计有帮助的事件块,并抑制噪声和冗余信息。
技术框架:DEVO系统主要包含以下几个模块:1) 事件数据预处理:将原始事件数据转换为适合深度学习模型处理的格式。2) 深度事件块选择网络:使用深度神经网络学习事件块的特征,并选择信息量丰富的事件块。3) 位姿估计模块:基于选定的事件块,利用优化算法估计相机的位姿。4) 位姿优化:使用Bundle Adjustment等方法对估计的位姿进行优化,进一步提高精度。
关键创新:DEVO的关键创新在于提出了一个针对事件数据定制的深度事件块选择机制。该机制能够学习事件数据的特征,并选择对位姿估计有帮助的事件块。与传统的基于手工特征的事件块选择方法相比,DEVO的深度学习方法能够更好地适应不同的场景和运动模式。
关键设计:DEVO的深度事件块选择网络采用卷积神经网络(CNN)结构,输入为事件块,输出为每个事件块的重要性评分。损失函数的设计考虑了事件块的稀疏性和信息量,鼓励网络选择少量但信息量丰富的事件块。位姿估计模块采用非线性优化方法,最小化事件块的重投影误差。Bundle Adjustment用于全局优化位姿。
📊 实验亮点
DEVO在七个真实数据集上进行了评估,实验结果表明,与现有的仅使用事件的方法相比,DEVO显著降低了位姿跟踪误差,最高可达97%。在某些数据集上,DEVO的性能甚至超过或接近立体视觉或惯性导航系统。这些结果表明,DEVO是一种高性能的单目事件相机视觉里程计系统。
🎯 应用场景
DEVO具有广泛的应用前景,例如在无人机、机器人、增强现实和虚拟现实等领域。该系统可以在高动态和恶劣光照条件下实现高精度的位姿估计,为这些应用提供可靠的定位和导航能力。此外,DEVO仅依赖单个事件相机,降低了系统的成本和复杂度,使其更易于部署在实际设备中。
📄 摘要(原文)
Event cameras offer the exciting possibility of tracking the camera's pose during high-speed motion and in adverse lighting conditions. Despite this promise, existing event-based monocular visual odometry (VO) approaches demonstrate limited performance on recent benchmarks. To address this limitation, some methods resort to additional sensors such as IMUs, stereo event cameras, or frame-based cameras. Nonetheless, these additional sensors limit the application of event cameras in real-world devices since they increase cost and complicate system requirements. Moreover, relying on a frame-based camera makes the system susceptible to motion blur and HDR. To remove the dependency on additional sensors and to push the limits of using only a single event camera, we present Deep Event VO (DEVO), the first monocular event-only system with strong performance on a large number of real-world benchmarks. DEVO sparsely tracks selected event patches over time. A key component of DEVO is a novel deep patch selection mechanism tailored to event data. We significantly decrease the pose tracking error on seven real-world benchmarks by up to 97% compared to event-only methods and often surpass or are close to stereo or inertial methods. Code is available at https://github.com/tum-vision/DEVO