EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

📄 arXiv: 2603.05807v1 📥 PDF

作者: Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer

分类: cs.CV

发布日期: 2026-03-06

备注: 10 pages, 4 figures, 5 tables, under review


💡 一句话要点

EventGeM:用于事件相机视觉定位的全局到局部特征匹配方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 视觉定位 全局特征 局部特征 特征匹配 深度估计 机器人导航

📋 核心要点

  1. 事件相机因其稀疏激活和高时间分辨率,在机器人和计算机视觉任务中越来越受欢迎,但如何有效利用事件数据进行视觉定位仍是挑战。
  2. EventGeM采用全局到局部的特征融合策略,首先利用ViT提取全局特征进行粗略匹配,再用MaxViT提取局部特征进行精细重排序。
  3. 实验表明,EventGeM在多个数据集上超越了现有最佳方法,并在真实机器人平台上实现了实时在线定位,验证了其有效性。

📝 摘要(中文)

本文提出了一种名为EventGeM的先进的全局到局部特征融合流程,用于基于事件相机的视觉定位。该方法利用预训练的视觉Transformer (ViT-S/16) 主干网络从事件直方图图像中提取全局特征块,用于初始匹配预测。然后,使用预训练的MaxViT主干网络检测局部特征关键点,并通过基于RANSAC的2D单应性进行重排序。为了进一步优化重排序,使用预训练的视觉基础模型进行深度估计,以比较参考图像和查询图像之间的结构相似性。实验结果表明,与当前最佳的基于事件的定位方法相比,EventGeM在多个基准数据集和光照条件下均实现了最先进的定位性能,并且完全能够在各种计算架构上实时运行。此外,还在机器人平台上进行了真实场景部署,验证了EventGeM使用事件相机直接提供的事件流进行在线定位的能力。

🔬 方法详解

问题定义:论文旨在解决基于事件相机的视觉定位问题。现有的方法通常难以在光照变化剧烈或运动模糊等场景下保持鲁棒性,并且计算效率有待提高。

核心思路:EventGeM的核心思路是结合全局特征的鲁棒性和局部特征的精确性,实现更准确的视觉定位。通过全局特征进行初步匹配,缩小搜索范围,然后利用局部特征进行精细重排序,提高定位精度。同时,利用深度信息进一步提升匹配的可靠性。

技术框架:EventGeM的整体框架包含以下几个主要模块:1) 全局特征提取:使用预训练的ViT-S/16从事件直方图图像中提取全局特征向量。2) 局部特征提取:使用预训练的MaxViT检测局部特征关键点。3) 初始匹配:基于全局特征向量进行初始匹配预测。4) 单应性重排序:利用RANSAC算法和2D单应性变换对初始匹配结果进行重排序。5) 深度重排序:使用预训练的视觉基础模型进行深度估计,并比较结构相似性,进一步优化重排序结果。

关键创新:EventGeM的关键创新在于全局到局部特征融合的策略,以及利用预训练的视觉Transformer和视觉基础模型来提取特征和进行深度估计。这种方法充分利用了预训练模型的强大表征能力,并将其应用于事件相机的视觉定位任务中。

关键设计:在全局特征提取阶段,使用了ViT-S/16模型,该模型在图像分类任务上表现出色,能够提取有效的全局特征。在局部特征提取阶段,使用了MaxViT模型,该模型具有强大的局部特征提取能力。在深度重排序阶段,使用了预训练的深度估计模型,该模型能够提供准确的深度信息,用于比较图像之间的结构相似性。RANSAC算法用于去除错误的匹配点,提高单应性变换的准确性。具体的损失函数和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EventGeM在多个基准数据集上实现了最先进的定位性能,超越了当前最佳的基于事件的定位方法。该方法能够在各种计算架构上实时运行,并在真实机器人平台上进行了部署验证,证明了其在实际应用中的可行性和有效性。具体的性能提升数据和对比基线在论文中未详细说明,属于未知信息。

🎯 应用场景

EventGeM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以用于在光照变化剧烈或运动模糊等复杂环境下进行精确定位,提高机器人的自主导航能力和系统的鲁棒性。此外,该方法还可以应用于无人机、移动机器人等平台,实现实时在线定位。

📄 摘要(原文)

Dynamic vision sensors, also known as event cameras, are rapidly rising in popularity for robotic and computer vision tasks due to their sparse activation and high-temporal resolution. Event cameras have been used in robotic navigation and localization tasks where accurate positioning needs to occur on small and frequent time scales, or when energy concerns are paramount. In this work, we present EventGeM, a state-of-the-art global to local feature fusion pipeline for event-based Visual Place Recognition. We use a pre-trained vision transformer (ViT-S/16) backbone to obtain global feature patch for initial match predictions embeddings from event histogram images. Local feature keypoints were then detected using a pre-trained MaxViT backbone for 2D-homography based re-ranking with RANSAC. For additional re-ranking refinement, we subsequently used a pre-trained vision foundation model for depth estimation to compare structural similarity between references and queries. Our work performs state-of-the-art localization when compared to the best currently available event-based place recognition method across several benchmark datasets and lighting conditions all whilst being fully capable of running in real-time when deployed across a variety of compute architectures. We demonstrate the capability of EventGeM in a real-world deployment on a robotic platform for online localization using event streams directly from an event camera. Project page: https://eventgemvpr.github.io/