CF-NeRF: Camera Parameter Free Neural Radiance Fields with Incremental Learning

📄 arXiv: 2312.08760v1 📥 PDF

作者: Qingsong Yan, Qiang Wang, Kaiyong Zhao, Jie Chen, Bo Li, Xiaowen Chu, Fei Deng

分类: cs.CV

发布日期: 2023-12-14

备注: Accepted at the Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI24)


💡 一句话要点

提出CF-NeRF,通过增量学习实现无相机参数的神经辐射场重建,适用于复杂旋转场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 无相机参数 增量学习 三维重建 位姿估计

📋 核心要点

  1. 现有NeRF方法依赖于COLMAP等传统方法提供相机内外参数,限制了其在复杂运动场景下的应用。
  2. CF-NeRF受增量式SfM启发,通过初始化、隐式定位和优化,逐步估计相机参数并重建场景。
  3. 在NeRFBuster数据集上的实验表明,CF-NeRF在复杂旋转场景下表现出色,无需先验信息即可达到SOTA。

📝 摘要(中文)

神经辐射场(NeRF)在 novel view synthesis 方面表现出令人印象深刻的性能。然而,NeRF及其大多数变体仍然依赖于传统的复杂流程来提供外参和内参相机参数,例如COLMAP。最近的工作,如NeRFmm、BARF和L2G-NeRF,直接将相机参数视为可学习的,并通过可微体渲染来估计它们。然而,这些方法适用于具有轻微运动的前向场景,并且在实践中无法处理旋转场景。为了克服这个限制,我们提出了一种新的无相机参数神经辐射场(CF-NeRF),它通过增量式结构运动(SfM)重建3D表示并恢复相机参数。给定一系列图像,CF-NeRF逐个估计图像的相机参数,并通过初始化、隐式定位和隐式优化来重建场景。为了评估我们的方法,我们使用了一个具有挑战性的真实世界数据集NeRFBuster,它提供了12个复杂轨迹下的场景。结果表明,CF-NeRF对相机旋转具有鲁棒性,并在不提供先验信息和约束的情况下实现了最先进的结果。

🔬 方法详解

问题定义:现有NeRF方法严重依赖于精确的相机参数(内参和外参),这些参数通常由COLMAP等传统SfM方法提供。然而,这些方法在相机运动剧烈或场景纹理不足的情况下容易失败,导致NeRF重建质量下降。现有可学习相机参数的NeRF方法,如NeRFmm、BARF等,在处理复杂旋转场景时表现不佳,限制了NeRF的应用范围。

核心思路:CF-NeRF的核心思想是借鉴增量式SfM的思路,逐步估计相机参数并重建场景。它避免了对预先计算的相机参数的依赖,而是通过优化神经辐射场的同时,隐式地学习相机位姿。这种增量式的学习方式使得CF-NeRF能够更好地适应复杂的相机运动和场景变化。

技术框架:CF-NeRF的整体流程包括三个主要阶段:初始化、隐式定位和隐式优化。首先,通过少量图像初始化场景和相机参数。然后,对于后续的每一张图像,CF-NeRF使用隐式定位模块估计其相机位姿。最后,通过隐式优化模块,联合优化神经辐射场和所有相机参数,从而提高重建质量。

关键创新:CF-NeRF的关键创新在于其无相机参数的增量式学习框架。它将相机参数估计和神经辐射场重建集成到一个统一的优化过程中,避免了对外部SfM方法的依赖。此外,CF-NeRF的隐式定位模块能够有效地估计相机位姿,即使在相机运动剧烈或场景纹理不足的情况下也能保持鲁棒性。

关键设计:CF-NeRF使用MLP网络表示神经辐射场,并采用体渲染技术生成图像。隐式定位模块通过最小化渲染图像与真实图像之间的差异来估计相机位姿。隐式优化模块使用光度损失和正则化项来优化神经辐射场和相机参数。具体的损失函数和网络结构细节在论文中有详细描述。

📊 实验亮点

CF-NeRF在NeRFBuster数据集上取得了state-of-the-art的结果,证明了其在复杂旋转场景下的鲁棒性。与现有方法相比,CF-NeRF无需提供任何先验信息或约束,即可实现高质量的三维重建。实验结果表明,CF-NeRF在相机参数估计和重建质量方面均优于现有方法。

🎯 应用场景

CF-NeRF在三维重建、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于重建具有复杂相机运动的场景,例如室内环境、城市景观等。此外,CF-NeRF还可以应用于机器人导航、自动驾驶等领域,为机器人提供准确的三维环境信息。

📄 摘要(原文)

Neural Radiance Fields (NeRF) have demonstrated impressive performance in novel view synthesis. However, NeRF and most of its variants still rely on traditional complex pipelines to provide extrinsic and intrinsic camera parameters, such as COLMAP. Recent works, like NeRFmm, BARF, and L2G-NeRF, directly treat camera parameters as learnable and estimate them through differential volume rendering. However, these methods work for forward-looking scenes with slight motions and fail to tackle the rotation scenario in practice. To overcome this limitation, we propose a novel \underline{c}amera parameter \underline{f}ree neural radiance field (CF-NeRF), which incrementally reconstructs 3D representations and recovers the camera parameters inspired by incremental structure from motion (SfM). Given a sequence of images, CF-NeRF estimates the camera parameters of images one by one and reconstructs the scene through initialization, implicit localization, and implicit optimization. To evaluate our method, we use a challenging real-world dataset NeRFBuster which provides 12 scenes under complex trajectories. Results demonstrate that CF-NeRF is robust to camera rotation and achieves state-of-the-art results without providing prior information and constraints.