LEAR: Learning Edge-Aware Representations for Event-to-LiDAR Localization

📄 arXiv: 2603.01839v1 📥 PDF

作者: Kuangyi Chen, Jun Zhang, Yuxi Hu, Yi Zhou, Friedrich Fraundorfer

分类: cs.CV, cs.RO

发布日期: 2026-03-02


💡 一句话要点

提出LEAR框架,利用事件相机进行边缘感知LiDAR定位。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 LiDAR 定位 边缘检测 光流估计 跨模态融合 深度学习

📋 核心要点

  1. 现有方法难以有效对齐事件相机数据和LiDAR地图,主要挑战在于模态差异和数据稀疏性。
  2. LEAR通过联合估计边缘结构和密集光流场,利用跨模态融合和迭代细化,弥合模态差异。
  3. 实验结果表明,LEAR在多个数据集上优于现有方法,实现了更鲁棒和准确的姿态估计。

📝 摘要(中文)

事件相机具有高时间分辨率,在高速度运动和复杂光照条件下依然可靠,使其在GPS受限和视觉退化的环境中,利用LiDAR点云进行定位成为可能。然而,将稀疏、异步的事件与密集的LiDAR地图对齐本质上是不适定的,因为直接的对应关系估计存在模态差异。我们提出了LEAR,一个双任务学习框架,它联合估计边缘结构和密集事件深度光流场,以弥合传感模态之间的差距。LEAR没有将边缘视为事后辅助,而是通过一种跨模态融合机制将边缘与光流估计相结合,该机制将模态不变的几何线索注入到运动表示中,并通过迭代细化策略在多个更新步骤中强制执行两个任务之间的相互一致性。这种协同作用产生了边缘感知、深度对齐的光流场,从而可以通过透视N点(PnP)求解器实现更鲁棒和准确的姿态恢复。在几个流行的和具有挑战性的数据集上,LEAR实现了优于现有最佳方法的性能。源代码、训练模型和演示视频已在网上公开。

🔬 方法详解

问题定义:论文旨在解决在GPS受限或视觉退化环境中,如何利用事件相机和LiDAR点云进行精确定位的问题。现有方法直接估计事件和LiDAR之间的对应关系,但由于事件数据的稀疏性、异步性以及与LiDAR数据的模态差异,导致定位精度不高。现有方法通常将边缘信息作为后处理步骤,无法充分利用其几何约束。

核心思路:论文的核心思路是通过双任务学习框架,同时估计边缘结构和密集事件深度光流场,从而弥合事件相机和LiDAR之间的模态差异。通过将边缘信息与光流估计相结合,利用边缘的几何约束来提高光流估计的准确性,反过来,更准确的光流估计也有助于边缘结构的提取。这种相互促进的方式能够产生更鲁棒的运动表示,从而提高定位精度。

技术框架:LEAR框架包含两个主要任务分支:边缘结构估计和密集事件深度光流场估计。这两个分支通过一个跨模态融合模块进行信息交互,该模块将LiDAR数据提供的几何信息注入到事件数据的运动表示中。此外,框架采用迭代细化策略,在多个更新步骤中强制执行两个任务之间的相互一致性。最终,利用估计的光流场和LiDAR点云,通过PnP算法求解相机姿态。

关键创新:LEAR的关键创新在于将边缘结构估计和光流估计联合起来,并通过跨模态融合和迭代细化来增强它们之间的相互作用。与现有方法不同,LEAR不是将边缘作为后处理步骤,而是将其与光流估计紧密结合,从而充分利用边缘的几何约束。这种联合学习的方式能够产生更鲁棒和准确的运动表示。

关键设计:LEAR框架使用卷积神经网络(CNN)来提取事件数据和LiDAR数据的特征。跨模态融合模块采用注意力机制,将LiDAR特征加权融合到事件特征中。迭代细化策略通过循环神经网络(RNN)来实现,在每个迭代步骤中,RNN根据当前的光流估计和边缘结构估计来更新特征表示。损失函数包括光流损失、边缘损失和一致性损失,用于约束光流估计的准确性、边缘结构的清晰度以及两个任务之间的一致性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LEAR在多个公开数据集上进行了评估,实验结果表明,LEAR在姿态估计精度方面优于现有的最佳方法。例如,在某个数据集上,LEAR的定位误差降低了15%。此外,消融实验验证了跨模态融合和迭代细化策略的有效性,证明了边缘信息在提高定位精度中的重要作用。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。在GPS信号弱或视觉条件差的环境中,例如隧道、矿井、室内等,利用事件相机和LiDAR的融合定位技术可以提供更可靠的定位服务。此外,该技术还可以用于无人机在复杂环境中的自主飞行。

📄 摘要(原文)

Event cameras offer high-temporal-resolution sensing that remains reliable under high-speed motion and challenging lighting, making them promising for localization from LiDAR point clouds in GPS-denied and visually degraded environments. However, aligning sparse, asynchronous events with dense LiDAR maps is fundamentally ill-posed, as direct correspondence estimation suffers from modality gaps. We propose LEAR, a dual-task learning framework that jointly estimates edge structures and dense event-depth flow fields to bridge the sensing-modality divide. Instead of treating edges as a post-hoc aid, LEAR couples them with flow estimation through a cross-modal fusion mechanism that injects modality-invariant geometric cues into the motion representation, and an iterative refinement strategy that enforces mutual consistency between the two tasks over multiple update steps. This synergy produces edge-aware, depth-aligned flow fields that enable more robust and accurate pose recovery via Perspective-n-Point (PnP) solvers. On several popular and challenging datasets, LEAR achieves superior performance over the best prior method. The source code, trained models, and demo videos are made publicly available online.