Self-Evolving Neural Radiance Fields
作者: Jaewoo Jung, Jisang Han, Jiwon Kang, Seongchan Kim, Min-Seop Kwak, Seungryong Kim
分类: cs.CV
发布日期: 2023-12-02 (更新: 2023-12-05)
备注: 34 pages, 21 figures Our project page can be found at : https://ku-cvlab.github.io/SE-NeRF/
💡 一句话要点
提出自进化神经辐射场(SE-NeRF),解决稀疏视角下NeRF过拟合问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 神经辐射场 NeRF novel view synthesis few-shot learning 自训练 知识蒸馏 三维重建
📋 核心要点
- 现有NeRF方法在稀疏视角下易过拟合,仅靠正则化难以保证模型泛化能力。
- SE-NeRF采用教师-学生自训练框架,利用教师模型生成的伪标签指导学生模型学习更鲁棒的场景表示。
- 通过可靠性估计区分射线,并采用不同的蒸馏策略,SE-NeRF在多个数据集上取得了state-of-the-art的结果。
📝 摘要(中文)
神经辐射场(NeRF)在 novel view synthesis 和 3D 重建方面表现出色。然而,它仍然需要大量高质量图像,限制了其在现实场景中的应用。为了克服这一限制,最近的工作集中在使用稀疏视角训练 NeRF,并施加额外的正则化,通常称为 few-shot NeRF。我们观察到,由于任务的欠约束性质,仅使用额外的正则化不足以防止模型过拟合稀疏视角。在本文中,我们提出了一个名为自进化神经辐射场(SE-NeRF)的新框架,该框架将自训练应用于 NeRF 以解决这些问题。我们将 few-shot NeRF 转化为教师-学生框架,通过使用从教师生成的额外伪标签训练学生,来引导网络学习更鲁棒的场景表示。通过使用我们新颖的可靠性估计方法获得的可靠和不可靠射线的不同蒸馏方案来提炼射线级伪标签,我们使 NeRF 能够学习更准确和鲁棒的 3D 场景几何。我们展示并评估了将我们的自训练框架应用于现有模型可以提高渲染图像的质量,并在多个设置中实现最先进的性能。
🔬 方法详解
问题定义:论文旨在解决在稀疏视角下训练神经辐射场(NeRF)时,模型容易过拟合的问题。现有的few-shot NeRF方法通常依赖于额外的正则化来约束模型,但由于任务本身的欠约束性,单纯的正则化不足以防止模型记住有限的训练视角,导致泛化能力差。
核心思路:论文的核心思路是利用自训练框架,通过教师-学生模型之间的知识蒸馏,提高NeRF在稀疏视角下的泛化能力。教师模型生成伪标签,指导学生模型学习,从而避免学生模型直接过拟合训练数据。
技术框架:SE-NeRF的整体框架是一个教师-学生模型。首先,使用原始的稀疏视角图像训练教师NeRF模型。然后,教师模型生成射线级别的伪标签(颜色和密度)。接下来,引入可靠性估计模块,判断哪些射线的伪标签是可靠的,哪些是不可靠的。最后,使用不同的蒸馏策略,将教师模型的知识传递给学生NeRF模型。
关键创新:论文的关键创新在于提出了一个自进化的NeRF训练框架,并设计了可靠性估计模块和差异化的蒸馏策略。通过自训练,模型能够从自身的预测中学习,从而提高泛化能力。可靠性估计模块能够区分可靠和不可靠的射线,避免了不可靠的伪标签对学生模型的负面影响。
关键设计:SE-NeRF的关键设计包括:1) 教师和学生模型采用相同的NeRF结构;2) 可靠性估计模块基于射线的不确定性进行判断,例如方差或熵;3) 对于可靠的射线,使用L1或L2损失进行蒸馏;4) 对于不可靠的射线,使用更宽松的损失函数或忽略它们;5) 损失函数包括重建损失、正则化损失和蒸馏损失。
📊 实验亮点
SE-NeRF在多个few-shot NeRF benchmark数据集上进行了评估,实验结果表明,SE-NeRF显著提高了渲染图像的质量,并在PSNR、SSIM和LPIPS等指标上取得了state-of-the-art的性能。例如,在某些数据集上,SE-NeRF相比于之前的最佳方法,PSNR提升了1-2dB。
🎯 应用场景
SE-NeRF可应用于机器人导航、自动驾驶、虚拟现实/增强现实等领域。在这些场景中,通常难以获取大量高质量的图像数据,而SE-NeRF能够在稀疏视角下实现高质量的3D重建和novel view synthesis,降低了数据采集成本,提高了系统的实用性。该方法还有潜力应用于医学影像重建、文物数字化等领域。
📄 摘要(原文)
Recently, neural radiance field (NeRF) has shown remarkable performance in novel view synthesis and 3D reconstruction. However, it still requires abundant high-quality images, limiting its applicability in real-world scenarios. To overcome this limitation, recent works have focused on training NeRF only with sparse viewpoints by giving additional regularizations, often called few-shot NeRF. We observe that due to the under-constrained nature of the task, solely using additional regularization is not enough to prevent the model from overfitting to sparse viewpoints. In this paper, we propose a novel framework, dubbed Self-Evolving Neural Radiance Fields (SE-NeRF), that applies a self-training framework to NeRF to address these problems. We formulate few-shot NeRF into a teacher-student framework to guide the network to learn a more robust representation of the scene by training the student with additional pseudo labels generated from the teacher. By distilling ray-level pseudo labels using distinct distillation schemes for reliable and unreliable rays obtained with our novel reliability estimation method, we enable NeRF to learn a more accurate and robust geometry of the 3D scene. We show and evaluate that applying our self-training framework to existing models improves the quality of the rendered images and achieves state-of-the-art performance in multiple settings.