TransLocNet: Cross-Modal Attention for Aerial-Ground Vehicle Localization with Contrastive Learning
作者: Phu Pham, Damon Conover, Aniket Bera
分类: cs.CV
发布日期: 2025-12-11
备注: 8 pages, 4 figures, 4 tables
💡 一句话要点
TransLocNet:基于跨模态注意力和对比学习的无人机-地面车辆定位
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 无人机定位 地面车辆定位 跨模态融合 注意力机制 对比学习
📋 核心要点
- 无人机-地面车辆定位面临视角和模态差异巨大的挑战,现有方法难以有效融合异构数据。
- TransLocNet利用跨模态注意力机制,将激光雷达几何信息与航拍语义上下文进行有效融合。
- 实验结果表明,TransLocNet在定位精度上显著优于现有方法,并在合成和真实数据集上均表现出良好的泛化能力。
📝 摘要(中文)
本文提出TransLocNet,一个跨模态注意力框架,用于融合激光雷达几何信息与无人机航拍语义上下文,解决无人机-地面车辆定位难题。该方法通过双向注意力机制将激光雷达扫描投影到鸟瞰图表示,并与航拍特征对齐,然后使用似然图解码器输出位置和方向的空间概率分布。对比学习模块用于强制执行共享嵌入空间,以改善跨模态对齐。在CARLA和KITTI数据集上的实验表明,TransLocNet优于现有技术,定位误差最多可降低63%,并实现亚米级、亚度级的精度。结果表明,TransLocNet在合成和真实环境中均能提供鲁棒且通用的无人机-地面车辆定位。
🔬 方法详解
问题定义:无人机与地面车辆的定位是一个具有挑战性的问题,主要痛点在于地面激光雷达数据和空中图像数据之间存在巨大的视角差异和模态差异。现有的方法难以有效地将这两种异构数据融合起来,导致定位精度不高。
核心思路:TransLocNet的核心思路是利用跨模态注意力机制,将激光雷达的几何信息和航拍图像的语义信息进行有效融合。通过学习两种模态之间的关联性,从而提高定位的准确性和鲁棒性。对比学习的引入进一步增强了跨模态特征的对齐。
技术框架:TransLocNet的整体框架包括以下几个主要模块:1) 激光雷达数据预处理,将激光雷达扫描数据投影到鸟瞰图(BEV)表示;2) 特征提取,分别从BEV激光雷达数据和航拍图像中提取特征;3) 跨模态注意力模块,利用双向注意力机制将激光雷达特征和航拍图像特征进行对齐和融合;4) 似然图解码器,根据融合后的特征生成位置和方向的概率分布;5) 对比学习模块,通过最小化正样本对之间的距离,最大化负样本对之间的距离,来学习一个共享的嵌入空间。
关键创新:TransLocNet的关键创新在于:1) 提出了一个跨模态注意力框架,能够有效地融合激光雷达几何信息和航拍语义上下文;2) 引入了对比学习模块,进一步提升了跨模态特征的对齐效果;3) 设计了一个似然图解码器,能够输出位置和方向的概率分布,从而提供更丰富的定位信息。
关键设计:在跨模态注意力模块中,使用了双向注意力机制,分别从激光雷达特征和航拍图像特征的角度进行注意力计算。对比学习模块使用了InfoNCE损失函数,用于学习一个共享的嵌入空间。似然图解码器使用卷积神经网络来生成位置和方向的概率分布。具体的参数设置(如注意力头的数量、卷积核的大小等)需要根据具体的数据集进行调整。
📊 实验亮点
TransLocNet在CARLA和KITTI数据集上进行了实验,结果表明其性能优于现有技术。在CARLA数据集上,TransLocNet将定位误差降低了高达63%,并在KITTI数据集上实现了亚米级、亚度级的定位精度。这些结果表明,TransLocNet在合成和真实环境中均能提供鲁棒且通用的无人机-地面车辆定位。
🎯 应用场景
该研究成果可应用于自动驾驶、无人机导航、机器人定位等领域。通过融合无人机航拍图像和地面激光雷达数据,可以实现更精确、更鲁棒的定位,提高系统的安全性和可靠性。未来,该技术有望在智慧城市、物流配送、灾害救援等场景中发挥重要作用。
📄 摘要(原文)
Aerial-ground localization is difficult due to large viewpoint and modality gaps between ground-level LiDAR and overhead imagery. We propose TransLocNet, a cross-modal attention framework that fuses LiDAR geometry with aerial semantic context. LiDAR scans are projected into a bird's-eye-view representation and aligned with aerial features through bidirectional attention, followed by a likelihood map decoder that outputs spatial probability distributions over position and orientation. A contrastive learning module enforces a shared embedding space to improve cross-modal alignment. Experiments on CARLA and KITTI show that TransLocNet outperforms state-of-the-art baselines, reducing localization error by up to 63% and achieving sub-meter, sub-degree accuracy. These results demonstrate that TransLocNet provides robust and generalizable aerial-ground localization in both synthetic and real-world settings.