Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark

作者: Yandi Yang, Jianping Li, Youqi Liao, Yuhao Li, Yizhe Zhang, Zhen Dong, Bisheng Yang, Naser El-Sheimy

分类: cs.RO

发布日期: 2025-09-09

💡 一句话要点

提出大规模跨模态定位数据集与基准，促进航空-地面视觉定位研究

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 跨模态定位 航空影像 地面图像 点云配准 视觉定位

📋 核心要点

现有视觉定位方法在复杂城市环境中面临纹理缺失、视角变化和长期漂移等挑战。
论文提出利用机载激光扫描（ALS）数据作为先验地图，实现更精确和可扩展的视觉定位。
构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集，并建立了基准。

📝 摘要（中文）

在密集城市环境中进行精确的视觉定位是摄影测量、地理空间信息科学和机器人学中的一项基本任务。虽然图像是一种低成本且广泛可用的传感方式，但其在视觉里程计上的有效性通常受到无纹理表面、剧烈的视角变化和长期漂移的限制。机载激光扫描（ALS）数据的日益普及为利用ALS作为先验地图，实现可扩展和精确的视觉定位开辟了新途径。然而，由于三个关键限制，基于ALS的定位潜力仍未得到充分挖掘：（1）缺乏平台多样化的数据集，（2）缺乏适用于大规模城市环境的可靠的真值生成方法，以及（3）现有图像到点云（I2P）算法在航空-地面跨平台设置下的验证有限。为了克服这些挑战，我们引入了一个新的大型数据集，该数据集集成了来自移动测绘系统的地面图像和在武汉、香港和旧金山收集的ALS点云。

🔬 方法详解

问题定义：论文旨在解决在复杂城市环境中，由于图像本身的局限性（如纹理缺失、视角变化等）导致的视觉定位精度不高的问题。现有方法难以充分利用日益普及的机载激光扫描（ALS）数据作为辅助信息，缺乏可靠的跨模态定位方法和评估基准。

核心思路：论文的核心思路是构建一个大规模的、平台多样化的航空-地面跨模态数据集，并基于此数据集评估现有的图像到点云（I2P）算法，从而推动跨模态视觉定位技术的发展。通过将地面图像与对应的ALS点云进行配准，可以克服单一模态的局限性，提高定位精度和鲁棒性。

技术框架：该研究主要包含三个阶段：数据采集、真值生成和基准测试。数据采集阶段，利用移动测绘系统获取地面图像，同时获取对应区域的ALS点云数据。真值生成阶段，设计可靠的方法，为数据集中的图像生成精确的位姿真值。基准测试阶段，选择现有的I2P算法，在构建的数据集上进行评估，并分析其性能。

关键创新：论文的关键创新在于构建了一个大规模的、平台多样化的航空-地面跨模态数据集，该数据集包含了来自不同城市（武汉、香港和旧金山）的数据，具有较高的代表性和泛化能力。此外，论文还提出了可靠的真值生成方法，为数据集中的图像提供了精确的位姿真值，为后续的算法评估提供了基础。

关键设计：论文在数据采集方面，考虑了不同城市的环境特点，选择了具有代表性的区域进行数据采集。在真值生成方面，可能采用了诸如人工标定、SLAM等方法，以保证真值的精度。在基准测试方面，选择了具有代表性的I2P算法，并设计了合理的评估指标，以全面评估算法的性能。

📊 实验亮点

论文构建了包含武汉、香港和旧金山的大规模航空-地面跨模态数据集，为跨模态视觉定位研究提供了重要资源。通过对现有I2P算法的基准测试，揭示了现有算法在航空-地面跨平台定位中的局限性，为后续算法的改进提供了方向。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、城市三维重建、智慧城市等领域。通过融合航空影像和地面图像，可以实现更精确、更鲁棒的定位和建图，提高相关系统的可靠性和智能化水平。未来，该数据集和基准可以促进跨模态定位算法的进一步发展，推动相关技术的实际应用。

📄 摘要（原文）

Accurate visual localization in dense urban environments poses a fundamental task in photogrammetry, geospatial information science, and robotics. While imagery is a low-cost and widely accessible sensing modality, its effectiveness on visual odometry is often limited by textureless surfaces, severe viewpoint changes, and long-term drift. The growing public availability of airborne laser scanning (ALS) data opens new avenues for scalable and precise visual localization by leveraging ALS as a prior map. However, the potential of ALS-based localization remains underexplored due to three key limitations: (1) the lack of platform-diverse datasets, (2) the absence of reliable ground-truth generation methods applicable to large-scale urban environments, and (3) limited validation of existing Image-to-Point Cloud (I2P) algorithms under aerial-ground cross-platform settings. To overcome these challenges, we introduce a new large-scale dataset that integrates ground-level imagery from mobile mapping systems with ALS point clouds collected in Wuhan, Hong Kong, and San Francisco.

Aerial-ground Cross-modal Localization: Dataset, Ground-truth, and Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册