MuRF: Multi-Baseline Radiance Fields

📄 arXiv: 2312.04565v2 📥 PDF

作者: Haofei Xu, Anpei Chen, Yuedong Chen, Christos Sakaridis, Yulun Zhang, Marc Pollefeys, Andreas Geiger, Fisher Yu

分类: cs.CV

发布日期: 2023-12-07 (更新: 2024-06-09)

备注: CVPR 2024, Project Page: https://haofeixu.github.io/murf/, Code: https://github.com/autonomousvision/murf


💡 一句话要点

MuRF:提出多基线辐射场方法,解决稀疏视角合成问题,适用于不同基线设置。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 辐射场 多基线 稀疏视角 三维重建

📋 核心要点

  1. 现有稀疏视角合成方法在处理不同基线设置和输入视图数量时存在局限性,难以兼顾质量和泛化性。
  2. MuRF的核心思想是构建与目标视图对齐的视锥体,通过卷积网络建模3D上下文,从而有效聚合输入视图信息。
  3. MuRF在多种数据集上取得了SOTA性能,并在Mip-NeRF 360数据集上展现出良好的零样本泛化能力。

📝 摘要(中文)

本文提出了一种通用的前馈方法,即多基线辐射场(MuRF),用于解决多种不同基线设置(小基线和大基线,以及不同数量的输入视图)下的稀疏视角合成问题。为了渲染目标新视角,我们将3D空间离散化为平行于目标图像平面的平面,并相应地构建目标视锥体。这种目标体素表示在空间上与目标视图对齐,从而有效地聚合来自输入视图的相关信息,以实现高质量的渲染。由于其轴对齐特性,它还有利于后续使用卷积网络进行辐射场回归。卷积网络建模的3D上下文使我们的方法能够合成比现有方法更清晰的场景结构。我们的MuRF在多种不同的基线设置和各种场景(从简单对象(DTU)到复杂的室内和室外场景(RealEstate10K和LLFF))中实现了最先进的性能。我们还在Mip-NeRF 360数据集上展示了有希望的零样本泛化能力,证明了MuRF的通用适用性。

🔬 方法详解

问题定义:论文旨在解决稀疏视角下的新视角合成问题,即给定少量输入图像,生成任意视角的图像。现有方法在处理不同基线长度(近距离和远距离相机)和不同数量的输入视图时,性能会显著下降,难以适应复杂场景。此外,现有方法在合成清晰的场景结构方面存在不足。

核心思路:MuRF的核心思路是构建一个与目标视角对齐的3D体素表示,即目标视锥体。通过将3D空间离散化为平行于目标图像平面的平面,并将输入视图的信息投影到该视锥体中,从而实现对场景几何和外观的有效建模。这种与目标视角对齐的设计使得网络能够更容易地聚合来自不同输入视角的有效信息。

技术框架:MuRF的整体框架包括以下几个主要步骤:1) 构建目标视锥体:根据目标视角,将3D空间离散化为一系列平行于图像平面的平面,形成一个3D体素网格。2) 特征提取与投影:从输入图像中提取特征,并将这些特征投影到目标视锥体中。3) 辐射场回归:使用3D卷积神经网络对目标视锥体中的特征进行处理,回归每个体素的颜色和密度值。4) 体渲染:使用体渲染技术,将回归得到的颜色和密度值合成为最终的目标视角图像。

关键创新:MuRF的关键创新在于其目标视锥体的表示方法。与以往方法不同,MuRF的体素网格是与目标视角对齐的,这使得网络能够更容易地学习到视角相关的特征,并有效地聚合来自不同输入视角的有效信息。此外,使用3D卷积网络对视锥体进行处理,能够更好地建模场景的3D上下文信息,从而合成更清晰的场景结构。

关键设计:MuRF使用3D卷积神经网络进行辐射场回归,网络的具体结构未知。损失函数可能包含L1或L2损失,用于约束合成图像与真实图像之间的差异。论文中可能还使用了其他正则化项,以提高模型的泛化能力。具体参数设置未知。

📊 实验亮点

MuRF在DTU、RealEstate10K和LLFF等多个数据集上取得了state-of-the-art的性能,证明了其在不同基线设置和复杂场景下的有效性。此外,MuRF在Mip-NeRF 360数据集上展现出良好的零样本泛化能力,表明其具有较强的通用性。具体的性能提升幅度未知。

🎯 应用场景

MuRF在机器人导航、自动驾驶、虚拟现实/增强现实、三维重建等领域具有广泛的应用前景。它可以用于在稀疏视角下生成高质量的场景图像,从而提高机器人对环境的感知能力,增强用户的沉浸式体验,并为三维重建提供更准确的数据。

📄 摘要(原文)

We present Multi-Baseline Radiance Fields (MuRF), a general feed-forward approach to solving sparse view synthesis under multiple different baseline settings (small and large baselines, and different number of input views). To render a target novel view, we discretize the 3D space into planes parallel to the target image plane, and accordingly construct a target view frustum volume. Such a target volume representation is spatially aligned with the target view, which effectively aggregates relevant information from the input views for high-quality rendering. It also facilitates subsequent radiance field regression with a convolutional network thanks to its axis-aligned nature. The 3D context modeled by the convolutional network enables our method to synthesis sharper scene structures than prior works. Our MuRF achieves state-of-the-art performance across multiple different baseline settings and diverse scenarios ranging from simple objects (DTU) to complex indoor and outdoor scenes (RealEstate10K and LLFF). We also show promising zero-shot generalization abilities on the Mip-NeRF 360 dataset, demonstrating the general applicability of MuRF.