Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark

📄 arXiv: 2509.07362v1 📥 PDF

作者: Yandi Yang, Jianping Li, Youqi Liao, Yuhao Li, Yizhe Zhang, Zhen Dong, Bisheng Yang, Naser El-Sheimy

分类: cs.RO

发布日期: 2025-09-09


💡 一句话要点

提出大规模跨模态定位数据集与基准,促进航空-地面视觉定位研究

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 跨模态定位 航空影像 地面图像 点云配准 视觉定位

📋 核心要点

  1. 现有视觉定位方法在复杂城市环境中面临纹理缺失、视角变化和长期漂移等挑战。
  2. 论文提出利用机载激光扫描(ALS)数据作为先验地图,实现更精确和可扩展的视觉定位。
  3. 构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集,并建立了基准。

📝 摘要(中文)

在密集城市环境中进行精确的视觉定位是摄影测量、地理空间信息科学和机器人学中的一项基本任务。虽然图像是一种低成本且广泛可用的传感方式,但其在视觉里程计上的有效性通常受到无纹理表面、剧烈的视角变化和长期漂移的限制。机载激光扫描(ALS)数据的日益普及为利用ALS作为先验地图,实现可扩展和精确的视觉定位开辟了新途径。然而,由于三个关键限制,基于ALS的定位潜力仍未得到充分挖掘:(1)缺乏平台多样化的数据集,(2)缺乏适用于大规模城市环境的可靠的真值生成方法,以及(3)现有图像到点云(I2P)算法在航空-地面跨平台设置下的验证有限。为了克服这些挑战,我们引入了一个新的大型数据集,该数据集集成了来自移动测绘系统的地面图像和在武汉、香港和旧金山收集的ALS点云。

🔬 方法详解

问题定义:论文旨在解决在复杂城市环境中,由于图像本身的局限性(如纹理缺失、视角变化等)导致的视觉定位精度不高的问题。现有方法难以充分利用日益普及的机载激光扫描(ALS)数据作为辅助信息,缺乏可靠的跨模态定位方法和评估基准。

核心思路:论文的核心思路是构建一个大规模的、平台多样化的航空-地面跨模态数据集,并基于此数据集评估现有的图像到点云(I2P)算法,从而推动跨模态视觉定位技术的发展。通过将地面图像与对应的ALS点云进行配准,可以克服单一模态的局限性,提高定位精度和鲁棒性。

技术框架:该研究主要包含三个阶段:数据采集、真值生成和基准测试。数据采集阶段,利用移动测绘系统获取地面图像,同时获取对应区域的ALS点云数据。真值生成阶段,设计可靠的方法,为数据集中的图像生成精确的位姿真值。基准测试阶段,选择现有的I2P算法,在构建的数据集上进行评估,并分析其性能。

关键创新:论文的关键创新在于构建了一个大规模的、平台多样化的航空-地面跨模态数据集,该数据集包含了来自不同城市(武汉、香港和旧金山)的数据,具有较高的代表性和泛化能力。此外,论文还提出了可靠的真值生成方法,为数据集中的图像提供了精确的位姿真值,为后续的算法评估提供了基础。

关键设计:论文在数据采集方面,考虑了不同城市的环境特点,选择了具有代表性的区域进行数据采集。在真值生成方面,可能采用了诸如人工标定、SLAM等方法,以保证真值的精度。在基准测试方面,选择了具有代表性的I2P算法,并设计了合理的评估指标,以全面评估算法的性能。

📊 实验亮点

论文构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集,为跨模态视觉定位研究提供了重要资源。通过对现有I2P算法的基准测试,揭示了现有算法在航空-地面跨平台定位中的局限性,为后续算法的改进提供了方向。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、城市三维重建、智慧城市等领域。通过融合航空影像和地面图像,可以实现更精确、更鲁棒的定位和建图,提高相关系统的可靠性和智能化水平。未来,该数据集和基准可以促进跨模态定位算法的进一步发展,推动相关技术的实际应用。

📄 摘要(原文)

Accurate visual localization in dense urban environments poses a fundamental task in photogrammetry, geospatial information science, and robotics. While imagery is a low-cost and widely accessible sensing modality, its effectiveness on visual odometry is often limited by textureless surfaces, severe viewpoint changes, and long-term drift. The growing public availability of airborne laser scanning (ALS) data opens new avenues for scalable and precise visual localization by leveraging ALS as a prior map. However, the potential of ALS-based localization remains underexplored due to three key limitations: (1) the lack of platform-diverse datasets, (2) the absence of reliable ground-truth generation methods applicable to large-scale urban environments, and (3) limited validation of existing Image-to-Point Cloud (I2P) algorithms under aerial-ground cross-platform settings. To overcome these challenges, we introduce a new large-scale dataset that integrates ground-level imagery from mobile mapping systems with ALS point clouds collected in Wuhan, Hong Kong, and San Francisco.