Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
作者: Jeryes Danial, Yosi Ben Asher, Itzik Klein
分类: cs.RO
发布日期: 2025-11-18 (更新: 2025-11-23)
💡 一句话要点
提出一种轻量级单目视觉惯性SLAM系统,用于微型无人机同时定位与半稠密地图构建。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱七:动作重定向 (Motion Retargeting)
关键词: 单目SLAM 视觉惯性融合 深度学习 边缘检测 无人机 半稠密地图 实时定位
📋 核心要点
- 现有单目SLAM算法在无人机应用中存在几何细节不足或计算量过大的问题,且尺度模糊影响精度。
- 该论文提出一种结合稀疏关键点和稠密边缘重建的轻量级单目SLAM系统,利用深度学习进行深度预测和边缘检测。
- 实验结果表明,该系统能够在低功耗平台上实时运行,并实现鲁棒的自主导航和避障。
📝 摘要(中文)
本文提出了一种边缘感知的轻量级单目SLAM系统,用于微型无人机的同时定位与地图构建。现有算法要么缺乏详细的几何信息(稀疏方法),要么计算量过大(基于学习的稠密方法),且单目SLAM存在尺度模糊问题。为解决这些挑战,该系统结合了基于稀疏关键点的姿态估计和稠密边缘重建。该方法利用深度学习进行深度预测和边缘检测,并通过优化来细化关键点和边缘,以保证几何一致性,无需全局回环或繁重的神经网络计算。通过扩展卡尔曼滤波器融合惯性数据和视觉信息,解决尺度模糊问题并提高精度。该系统在低功耗平台上实时运行,已在配备单目相机和惯性传感器的DJI Tello无人机上进行了验证。此外,还在室内走廊和TUM RGBD数据集上展示了鲁棒的自主导航和避障能力。该方法为资源受限环境中的实时地图构建和导航提供了一种有效且实用的解决方案。
🔬 方法详解
问题定义:论文旨在解决微型无人机在资源受限环境中,利用单目相机和惯性传感器进行实时、精确的同时定位与半稠密地图构建问题。现有单目SLAM方法,如基于稀疏特征的方法,缺乏足够的几何细节,难以支持复杂的导航任务;而基于深度学习的稠密方法,计算复杂度高,难以在低功耗平台上实时运行。此外,单目SLAM固有的尺度模糊问题也会影响定位精度。
核心思路:论文的核心思路是结合稀疏关键点和稠密边缘信息,构建一个轻量级的SLAM系统。稀疏关键点用于快速姿态估计,而稠密边缘则提供更丰富的几何信息,从而在计算复杂度和地图质量之间取得平衡。利用深度学习进行边缘检测和深度预测,可以有效地提取环境中的几何特征。通过融合惯性传感器数据,解决单目SLAM的尺度模糊问题,提高定位精度。
技术框架:该系统的整体框架包括以下几个主要模块:1) 图像采集和预处理;2) 基于深度学习的深度预测和边缘检测;3) 基于稀疏关键点的姿态估计;4) 边缘重建和优化;5) 基于扩展卡尔曼滤波器(EKF)的视觉惯性融合。首先,从单目相机获取图像,并进行预处理。然后,利用深度学习模型预测深度图和检测边缘。接着,使用稀疏关键点进行初始姿态估计。之后,将边缘信息融入地图构建中,并通过优化算法提高几何一致性。最后,利用EKF融合视觉和惯性数据,估计无人机的状态(位置、姿态、速度等)。
关键创新:该论文的关键创新在于:1) 提出了一种边缘感知的半稠密地图构建方法,在计算复杂度和地图质量之间取得了平衡;2) 利用深度学习进行深度预测和边缘检测,提高了特征提取的效率和鲁棒性;3) 通过扩展卡尔曼滤波器融合视觉和惯性数据,有效地解决了单目SLAM的尺度模糊问题。与现有方法相比,该方法在保证实时性的前提下,提供了更丰富的几何信息,提高了定位精度。
关键设计:论文中关键的设计包括:1) 深度学习模型的选择和训练,需要选择合适的网络结构和损失函数,以保证深度预测和边缘检测的精度和效率;2) 边缘重建和优化算法的设计,需要考虑如何有效地将边缘信息融入地图构建中,并提高几何一致性;3) 扩展卡尔曼滤波器的设计,需要选择合适的状态向量和噪声模型,以保证视觉惯性融合的精度和鲁棒性。具体的参数设置和网络结构等细节在论文中可能有所描述,但此处无法详细展开。
📊 实验亮点
该系统在DJI Tello无人机上进行了实验验证,证明了其在低功耗平台上实时运行的能力。此外,还在室内走廊和TUM RGBD数据集上展示了鲁棒的自主导航和避障能力。虽然论文中没有给出具体的性能数据和对比基线,但实验结果表明,该系统能够有效地解决单目SLAM的尺度模糊问题,并提供更丰富的几何信息。
🎯 应用场景
该研究成果可应用于微型无人机的自主导航、避障、目标跟踪等任务。在资源受限的环境中,如室内、狭窄空间或灾后救援等场景,该系统能够提供实时、精确的定位和地图信息,支持无人机完成各种复杂任务。未来,该技术有望扩展到其他移动机器人平台,如移动机器人、AR/VR设备等。
📄 摘要(原文)
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.