GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields

📄 arXiv: 2401.00616v3 📥 PDF

作者: Xiao Pan, Zongxin Yang, Shuai Bai, Yi Yang

分类: cs.CV

发布日期: 2024-01-01 (更新: 2024-03-29)

备注: Submitted to Journal


💡 一句话要点

GD²-NeRF:通过GAN与扩散模型进行生成式细节补偿,实现单样本通用神经辐射场

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 新视角合成 生成对抗网络 扩散模型 单样本学习

📋 核心要点

  1. 现有OG-NeRF方法在新视角合成中存在模糊问题,因为它们过度依赖单个参考图像,缺乏生成细节的能力。
  2. GD²-NeRF利用GAN和扩散模型,通过粗到精的策略,在OG-NeRF基础上增加生成式细节补偿,无需微调即可生成高质量新视角。
  3. 实验表明,GD²-NeRF在合成和真实数据集上均能显著提升新视角合成的细节质量,并在清晰度和保真度之间取得平衡。

📝 摘要(中文)

本文关注单样本新视角合成(O-NVS)任务,旨在仅给定每个场景的单个参考图像的情况下合成逼真的新视角图像。以往的单样本通用神经辐射场(OG-NeRF)方法以一种无需推理时微调的方式解决此任务,但由于仅依赖于有限参考图像的编码器架构而存在模糊问题。另一方面,最近基于扩散的图像到3D方法通过将预训练的2D扩散模型提炼到3D表示中,展示了生动且合理的生成结果,但需要繁琐的逐场景优化。针对这些问题,我们提出了GD²-NeRF,一个通过GAN和扩散进行生成式细节补偿的框架,它既无需推理时微调,又具有生动且合理的细节。具体来说,遵循由粗到精的策略,GD²-NeRF主要由一个单阶段并行流水线(OPP)和一个3D一致的细节增强器(Diff3DE)组成。在粗略阶段,OPP首先有效地将GAN模型插入到现有的OG-NeRF流水线中,通过从训练数据集中捕获的分布内先验知识,初步缓解模糊问题,从而在清晰度(LPIPS, FID)和保真度(PSNR, SSIM)之间实现良好的平衡。然后,在精细阶段,Diff3DE进一步利用预训练的图像扩散模型来补充丰富的分布外细节,同时保持良好的3D一致性。在合成和真实世界数据集上的大量实验表明,GD²-NeRF显著改善了细节,而无需逐场景微调。

🔬 方法详解

问题定义:论文旨在解决单样本新视角合成(O-NVS)任务中,现有方法(特别是OG-NeRF)生成的新视角图像模糊不清的问题。OG-NeRF虽然避免了推理时的微调,但由于其编码器架构的局限性,无法从单个参考图像中提取足够的细节信息,导致生成图像缺乏清晰度和真实感。

核心思路:论文的核心思路是引入生成式模型来补偿OG-NeRF的细节缺失。具体来说,通过结合GAN和扩散模型,利用它们强大的生成能力,在OG-NeRF的粗略结果基础上,逐步添加更精细、更逼真的细节。这种粗到精的策略旨在平衡图像的整体结构保真度和局部细节的真实性。

技术框架:GD²-NeRF的整体框架包含两个主要阶段:单阶段并行流水线(OPP)和3D一致的细节增强器(Diff3DE)。OPP阶段将GAN模型集成到OG-NeRF中,利用GAN的生成能力初步提升图像的清晰度。Diff3DE阶段则利用预训练的图像扩散模型,进一步增强图像的细节,并确保生成结果在3D空间中的一致性。整个流程无需针对每个场景进行微调。

关键创新:GD²-NeRF的关键创新在于将GAN和扩散模型有效地结合到OG-NeRF框架中,实现了一种无需微调的、生成式细节补偿方法。与以往依赖编码器提取特征的方法不同,GD²-NeRF通过生成模型直接合成细节,从而克服了单张参考图像信息不足的限制。此外,Diff3DE模块的设计保证了生成细节的3D一致性,避免了视角不一致的问题。

关键设计:OPP阶段,GAN模型被并行地插入到OG-NeRF的渲染流程中,其损失函数包括对抗损失、感知损失等,以保证生成图像的清晰度和真实感。Diff3DE阶段,利用预训练的扩散模型作为先验,通过条件扩散的方式生成细节。为了保证3D一致性,Diff3DE在训练过程中引入了视角一致性损失。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,GD²-NeRF在合成和真实数据集上均取得了显著的性能提升。在定量指标方面,GD²-NeRF在LPIPS和FID等指标上优于现有的OG-NeRF方法,表明其生成的图像具有更高的清晰度和真实感。同时,GD²-NeRF在PSNR和SSIM等指标上也能保持竞争力,表明其在保真度方面也表现良好。定性结果也显示,GD²-NeRF能够生成更精细、更逼真的新视角图像。

🎯 应用场景

GD²-NeRF在虚拟现实、增强现实、游戏开发等领域具有广泛的应用前景。它可以用于从单张照片生成逼真的3D模型或新视角图像,从而降低内容创作的成本和难度。此外,该方法还可以应用于医学图像重建、遥感图像分析等领域,提升图像的细节质量和信息量。

📄 摘要(原文)

In this paper, we focus on the One-shot Novel View Synthesis (O-NVS) task which targets synthesizing photo-realistic novel views given only one reference image per scene. Previous One-shot Generalizable Neural Radiance Fields (OG-NeRF) methods solve this task in an inference-time finetuning-free manner, yet suffer the blurry issue due to the encoder-only architecture that highly relies on the limited reference image. On the other hand, recent diffusion-based image-to-3d methods show vivid plausible results via distilling pre-trained 2D diffusion models into a 3D representation, yet require tedious per-scene optimization. Targeting these issues, we propose the GD$^2$-NeRF, a Generative Detail compensation framework via GAN and Diffusion that is both inference-time finetuning-free and with vivid plausible details. In detail, following a coarse-to-fine strategy, GD$^2$-NeRF is mainly composed of a One-stage Parallel Pipeline (OPP) and a 3D-consistent Detail Enhancer (Diff3DE). At the coarse stage, OPP first efficiently inserts the GAN model into the existing OG-NeRF pipeline for primarily relieving the blurry issue with in-distribution priors captured from the training dataset, achieving a good balance between sharpness (LPIPS, FID) and fidelity (PSNR, SSIM). Then, at the fine stage, Diff3DE further leverages the pre-trained image diffusion models to complement rich out-distribution details while maintaining decent 3D consistency. Extensive experiments on both the synthetic and real-world datasets show that GD$^2$-NeRF noticeably improves the details while without per-scene finetuning.