AIM-SLAM: Dense Monocular SLAM via Adaptive and Informative Multi-View Keyframe Prioritization with Foundation Model

📄 arXiv: 2603.05097v1 📥 PDF

作者: Jinwoo Jeon, Dong-Uk Seo, Eungchang Mason Lee, Hyun Myung

分类: cs.RO

发布日期: 2026-03-05

备注: 8 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AIM-SLAM:利用自适应多视角关键帧和几何基础模型实现稠密单目SLAM

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目SLAM 稠密重建 多视角几何 关键帧选择 几何基础模型

📋 核心要点

  1. 单目SLAM稠密重建面临挑战,现有方法通常局限于双视图或固定长度输入,缺乏对几何上下文的充分考虑。
  2. AIM-SLAM通过SIGMA模块自适应选择信息量大的关键帧,并进行多视角Sim(3)优化,提升位姿估计精度。
  3. 在真实数据集上,AIM-SLAM在位姿估计和稠密重建方面均取得了SOTA性能,并支持ROS集成。

📝 摘要(中文)

本文提出AIM-SLAM,一个稠密的单目SLAM框架,它利用视觉几何基础Transformer(VGGT)的稠密点云预测,结合自适应和信息丰富的多视角关键帧优先级排序。具体而言,我们引入了选择性信息和几何感知多视角自适应(SIGMA)模块,该模块采用体素重叠和信息增益来检索候选关键帧集合并自适应地确定其大小。此外,我们构建了一个联合多视角Sim(3)优化,以强制所选视图之间的一致对齐,从而显著提高位姿估计精度。在真实世界数据集上的实验结果表明,AIM-SLAM在位姿估计和稠密重建方面均达到了最先进的性能。该系统支持ROS集成,代码已开源。

🔬 方法详解

问题定义:现有的单目SLAM稠密重建方法,特别是基于几何基础模型的方法,通常依赖于双视图或固定长度的输入,未能充分利用多视角信息中的几何上下文。这限制了它们在复杂场景下的重建质量和位姿估计精度。因此,如何有效地选择和利用多视角信息,成为提升单目SLAM性能的关键问题。

核心思路:AIM-SLAM的核心思路是自适应地选择信息量大的关键帧,并利用这些关键帧进行多视角几何一致性优化。通过SIGMA模块,系统能够根据体素重叠和信息增益来评估关键帧的质量,并动态调整关键帧的数量。然后,通过联合多视角Sim(3)优化,确保选定的关键帧在几何上保持一致,从而提高位姿估计的准确性。

技术框架:AIM-SLAM的整体框架包含以下几个主要模块:1) 使用视觉几何基础Transformer (VGGT) 进行稠密点云预测;2) SIGMA模块:用于选择信息量大且几何上相关的关键帧;3) 多视角Sim(3)优化:用于优化相机位姿,确保多视角几何一致性。系统首先利用VGGT生成初始的稠密点云,然后SIGMA模块根据体素重叠和信息增益选择关键帧,最后通过多视角Sim(3)优化来精化相机位姿和点云。

关键创新:AIM-SLAM的关键创新在于SIGMA模块和联合多视角Sim(3)优化。SIGMA模块能够自适应地选择信息量大的关键帧,避免了固定数量或固定视角选择的局限性。联合多视角Sim(3)优化则通过强制多视角几何一致性,显著提高了位姿估计的精度。与现有方法相比,AIM-SLAM能够更有效地利用多视角信息,从而实现更准确的稠密重建。

关键设计:SIGMA模块的关键设计包括:1) 体素重叠:用于评估关键帧之间的几何相关性;2) 信息增益:用于评估关键帧包含的信息量。多视角Sim(3)优化的关键设计包括:1) 使用Sim(3)变换来表示相机位姿;2) 构建基于重投影误差的损失函数,用于优化相机位姿和点云。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIM-SLAM在真实世界数据集上取得了state-of-the-art的性能,在位姿估计和稠密重建方面均优于现有方法。具体性能数据和对比基线需要在论文全文中查找。该系统支持ROS集成,方便在机器人平台上进行部署和应用。

🎯 应用场景

AIM-SLAM具有广泛的应用前景,包括机器人导航、增强现实、虚拟现实、三维地图构建等领域。该系统能够提供准确的位姿估计和稠密的三维重建,为机器人提供可靠的环境感知能力,为AR/VR应用提供沉浸式的体验,为三维地图构建提供高质量的数据。

📄 摘要(原文)

Recent advances in geometric foundation models have emerged as a promising alternative for addressing the challenge of dense reconstruction in monocular visual simultaneous localization and mapping (SLAM). Although geometric foundation models enable SLAM to leverage variable input views, the previous methods remain confined to two-view pairs or fixed-length inputs without sufficient deliberation of geometric context for view selection. To tackle this problem, we propose AIM-SLAM, a dense monocular SLAM framework that exploits an adaptive and informative multi-view keyframe prioritization with dense pointmap predictions from visual geometry grounded transformer (VGGT). Specifically, we introduce the selective information- and geometric-aware multi-view adaptation (SIGMA) module, which employs voxel overlap and information gain to retrieve a candidate set of keyframes and adaptively determine its size. Furthermore, we formulate a joint multi-view Sim(3) optimization that enforces consistent alignment across selected views, substantially improving pose estimation accuracy. The effectiveness of AIM-SLAM is demonstrated on real-world datasets, where it achieves state-of-the-art performance in both pose estimation and dense reconstruction. Our system supports ROS integration, with code is available at https://aimslam.github.io/.