CRISTAL: Real-time Camera Registration in Static LiDAR Scans using Neural Rendering

📄 arXiv: 2511.16349v1 📥 PDF

作者: Joni Vanherck, Steven Moonen, Brent Zoomers, Kobe Werner, Jeroen Put, Lode Jorissen, Nick Michiels

分类: cs.CV, cs.GR

发布日期: 2025-11-20


💡 一句话要点

CRISTAL:利用神经渲染在静态激光雷达扫描中进行实时相机注册

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱六:视频提取与匹配 (Video Extraction & Matching)

关键词: 相机定位 激光雷达 神经渲染 实时定位 点云 扩展现实 机器人导航

📋 核心要点

  1. 现有视觉定位方法易受漂移和尺度模糊影响,且依赖外部信息,限制了其在机器人和XR等领域的应用。
  2. CRISTAL通过神经渲染技术,从预先获取的激光雷达点云生成合成视图,建立2D-3D对应关系,实现相机定位。
  3. 该方法在ScanNet++数据集上表现优异,超越了现有SLAM算法,验证了其在复杂环境下的定位精度和鲁棒性。

📝 摘要(中文)

精确的相机定位对于机器人和扩展现实(XR)至关重要,它能够实现可靠的导航以及虚拟内容与真实内容的对齐。现有的视觉方法通常存在漂移、尺度模糊等问题,并且依赖于信标或回环闭合。本文提出了一种实时方法,用于在预先捕获的高精度彩色激光雷达点云中定位相机。通过渲染来自该点云的合成视图,在实时帧和点云之间建立2D-3D对应关系。一种神经渲染技术缩小了合成图像和真实图像之间的领域差距,减少了遮挡和背景伪影,从而改善了特征匹配。最终实现了在全局激光雷达坐标系中无漂移且具有正确度量尺度的相机跟踪。本文提出了两种实时变体:在线渲染和匹配,以及预构建和定位。实验结果表明,该方法在ScanNet++数据集上取得了更好的结果,并且优于现有的SLAM流程。

🔬 方法详解

问题定义:现有基于视觉的相机定位方法,例如SLAM,容易受到漂移、尺度不确定性的影响,并且通常需要回环检测或预先放置的信标。这些问题限制了它们在需要高精度和鲁棒性的机器人和XR应用中的使用。因此,需要一种能够在预先构建的静态环境中,实现实时、高精度、无漂移的相机定位方法。

核心思路:CRISTAL的核心思想是利用预先捕获的高精度彩色激光雷达点云作为全局地图,通过神经渲染技术生成与当前相机视角相似的合成图像,然后在合成图像和真实图像之间建立2D-3D对应关系,从而实现相机在全局坐标系中的定位。这种方法避免了传统视觉方法的累积误差,并提供了正确的度量尺度。

技术框架:CRISTAL包含两个主要阶段:预处理阶段和定位阶段。在预处理阶段,使用激光雷达扫描生成高精度的彩色点云地图。在定位阶段,首先使用神经渲染器从点云地图中生成合成图像,然后提取合成图像和真实图像的特征,并建立2D-3D对应关系。最后,使用RANSAC等方法估计相机的位姿。该方法包含两种实时变体:Online Render and Match (在线渲染和匹配) 和 Prebuild and Localize (预构建和定位)。

关键创新:CRISTAL的关键创新在于使用神经渲染技术来缩小合成图像和真实图像之间的领域差距。传统的渲染方法通常会产生与真实图像差异较大的合成图像,导致特征匹配困难。神经渲染技术能够学习真实图像的分布,从而生成更逼真的合成图像,提高了特征匹配的准确性和鲁棒性。

关键设计:CRISTAL使用了一种基于MLP的神经渲染器,该渲染器将3D点的位置和颜色作为输入,并输出该点的渲染颜色。为了提高渲染效率,使用了基于体素的加速结构。在特征匹配方面,使用了SIFT等传统特征提取算法。损失函数主要用于训练神经渲染器,目标是最小化合成图像和真实图像之间的像素差异。

📊 实验亮点

CRISTAL在ScanNet++数据集上进行了评估,实验结果表明,CRISTAL优于现有的SLAM算法,例如ORB-SLAM3和VINS-Fusion。具体而言,CRISTAL实现了更低的定位误差和更小的漂移。此外,CRISTAL的实时性能也得到了验证,能够在实际应用中实现实时相机定位。

🎯 应用场景

CRISTAL在机器人导航、扩展现实(XR)、自动驾驶等领域具有广泛的应用前景。例如,在机器人导航中,可以利用CRISTAL实现机器人在预先构建的环境中的高精度定位和导航。在XR中,可以将虚拟内容与真实场景精确对齐,提升用户体验。在自动驾驶中,可以作为视觉定位的补充,提高定位的鲁棒性和可靠性。

📄 摘要(原文)

Accurate camera localization is crucial for robotics and Extended Reality (XR), enabling reliable navigation and alignment of virtual and real content. Existing visual methods often suffer from drift, scale ambiguity, and depend on fiducials or loop closure. This work introduces a real-time method for localizing a camera within a pre-captured, highly accurate colored LiDAR point cloud. By rendering synthetic views from this cloud, 2D-3D correspondences are established between live frames and the point cloud. A neural rendering technique narrows the domain gap between synthetic and real images, reducing occlusion and background artifacts to improve feature matching. The result is drift-free camera tracking with correct metric scale in the global LiDAR coordinate system. Two real-time variants are presented: Online Render and Match, and Prebuild and Localize. We demonstrate improved results on the ScanNet++ dataset and outperform existing SLAM pipelines.