PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment
作者: Tianchen Deng, Guole Shen, Tong Qin, Jianyu Wang, Wentao Zhao, Jingchuan Wang, Danwei Wang, Weidong Chen
分类: cs.CV
发布日期: 2023-12-15 (更新: 2025-05-27)
备注: Accepted by CVPR 2024
🔗 代码/项目: GITHUB
💡 一句话要点
PLGSLAM:基于局部到全局Bundle Adjustment的渐进式神经场景表示,实现大规模场景高精度SLAM
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经SLAM 场景重建 位姿估计 Bundle Adjustment 三平面表示 渐进式场景表示 大规模场景 局部到全局优化
📋 核心要点
- 现有神经隐式场景表示方法在大型场景和长序列中重建质量和定位精度不足,主要受限于全局辐射场的容量和端到端位姿网络的鲁棒性。
- PLGSLAM采用渐进式场景表示,动态分配局部场景表示,并结合局部三平面高频特征和MLP低频特征,实现场景补全和鲁棒跟踪。
- PLGSLAM通过局部到全局的Bundle Adjustment和全局关键帧数据库,有效降低长序列中的姿态漂移,并在多种数据集上取得SOTA结果。
📝 摘要(中文)
本文提出PLGSLAM,一种能够实时进行高保真表面重建和鲁棒相机跟踪的神经视觉SLAM系统。针对大规模室内场景,PLGSLAM提出了一种渐进式场景表示方法,该方法动态分配新的局部场景表示,并使用局部滑动窗口内的帧进行训练。这使得系统能够扩展到更大的室内场景,并提高鲁棒性(即使在姿态漂移下)。在局部场景表示中,PLGSLAM利用三平面进行局部高频特征提取,并使用多层感知器(MLP)网络进行低频特征提取,从而在未观察到的区域实现平滑和场景补全。此外,本文提出了一种局部到全局的Bundle Adjustment方法,并使用全局关键帧数据库来解决长序列上日益增长的姿态漂移问题。实验结果表明,PLGSLAM在各种数据集和场景(包括小型和大型室内环境)中实现了最先进的场景重建结果和跟踪性能。
🔬 方法详解
问题定义:现有基于神经隐式表示的SLAM方法在处理大规模场景和长序列时,由于全局辐射场容量有限以及端到端位姿网络的累积误差,导致重建质量下降和定位精度降低。尤其是在存在姿态漂移的情况下,性能会显著恶化。
核心思路:PLGSLAM的核心思路是将全局场景分解为多个局部场景表示,并采用渐进式更新策略。通过动态分配和训练局部场景,系统能够适应大规模场景,并减轻累积误差的影响。同时,利用局部到全局的Bundle Adjustment优化,进一步提升位姿估计的准确性。
技术框架:PLGSLAM系统主要包含以下几个模块:1) 局部场景表示模块:使用三平面和MLP网络对局部场景进行建模,三平面提取高频特征,MLP网络提取低频特征,实现场景补全。2) 渐进式场景更新模块:动态分配新的局部场景,并使用滑动窗口内的帧进行训练。3) 局部到全局Bundle Adjustment模块:利用全局关键帧数据库,对局部场景和全局位姿进行联合优化,降低姿态漂移。
关键创新:PLGSLAM的关键创新在于:1) 渐进式场景表示:通过动态分配局部场景,有效扩展了系统处理大规模场景的能力。2) 局部到全局Bundle Adjustment:结合局部信息和全局约束,显著降低了长序列中的姿态漂移。3) 混合特征表示:结合三平面和MLP网络,能够更好地表示场景的几何和外观信息。
关键设计:局部场景的大小通过滑动窗口的大小控制,窗口内的帧用于训练局部场景表示。损失函数包括光度损失和正则化项,用于优化场景几何和外观。Bundle Adjustment中,关键帧的选择基于位姿变化和重建质量。三平面的维度和MLP网络的层数等参数需要根据具体场景进行调整。
📊 实验亮点
PLGSLAM在多个数据集上取得了state-of-the-art的结果,尤其是在大规模室内场景中,重建质量和跟踪精度显著优于现有方法。具体数据需要在论文中查找,但摘要中明确说明了优于现有方法。
🎯 应用场景
PLGSLAM具有广泛的应用前景,包括但不限于:增强现实(AR)、虚拟现实(VR)、机器人导航、三维地图重建、自动驾驶等领域。该系统能够为这些应用提供高精度、鲁棒的场景理解和定位能力,尤其是在大型室内环境中。
📄 摘要(原文)
Neural implicit scene representations have recently shown encouraging results in dense visual SLAM. However, existing methods produce low-quality scene reconstruction and low-accuracy localization performance when scaling up to large indoor scenes and long sequences. These limitations are mainly due to their single, global radiance field with finite capacity, which does not adapt to large scenarios. Their end-to-end pose networks are also not robust enough with the growth of cumulative errors in large scenes. To this end, we introduce PLGSLAM, a neural visual SLAM system capable of high-fidelity surface reconstruction and robust camera tracking in real-time. To handle large-scale indoor scenes, PLGSLAM proposes a progressive scene representation method which dynamically allocates new local scene representation trained with frames within a local sliding window. This allows us to scale up to larger indoor scenes and improves robustness (even under pose drifts). In local scene representation, PLGSLAM utilizes tri-planes for local high-frequency features with multi-layer perceptron (MLP) networks for the low-frequency feature, achieving smoothness and scene completion in unobserved areas. Moreover, we propose local-to-global bundle adjustment method with a global keyframe database to address the increased pose drifts on long sequences. Experimental results demonstrate that PLGSLAM achieves state-of-the-art scene reconstruction results and tracking performance across various datasets and scenarios (both in small and large-scale indoor environments). The code is open-sourced at https://github.com/dtc111111/plgslam.