Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion
作者: Yan Xu, Yixing Wang, Stella X. Yu
分类: cs.CV, cs.GR
发布日期: 2025-11-22
备注: Accepted to NeurIPS 2025
💡 一句话要点
提出基于视频扩散模型的零样本新视角合成方法,解决稀疏视角下的场景重建问题。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 新视角合成 视频扩散模型 零样本学习 3D高斯溅射 场景重建
📋 核心要点
- 现有新视角合成方法在稀疏视角输入下表现不佳,难以重建高质量的场景。
- 利用预训练视频扩散模型作为先验,通过测试时自然视频补全生成中间视角,指导3D场景重建。
- 实验表明,该方法在稀疏输入下显著优于3D-GS基线,无需场景特定训练或微调。
📝 摘要(中文)
本文提出了一种从少量场景图像中合成新视角的方案,其核心思想是将该任务视为测试时自然视频补全问题,利用预训练视频扩散模型强大的先验知识来生成合理的中间视角。该零样本、生成引导的框架能够根据新的相机姿态生成伪视角,并采用不确定性感知机制来保证空间一致性。这些合成帧为3D高斯溅射(3D-GS)提供了密集的监督信号,尤其是在欠观测区域。通过迭代反馈循环,3D几何和2D视角合成相互促进,从而改进场景重建和生成视角的质量。该方法无需任何特定场景的训练或微调,即可从稀疏输入中生成连贯、高保真的渲染结果。在LLFF、DTU、DL3DV和MipNeRF-360数据集上的实验表明,该方法在极端稀疏条件下显著优于强大的3D-GS基线。
🔬 方法详解
问题定义:论文旨在解决从极少量(稀疏)的场景图像中合成高质量新视角图像的问题。现有方法在稀疏输入下,由于缺乏足够的几何信息和纹理信息,难以准确重建场景,导致合成的新视角图像质量较差。尤其是在欠观测区域,重建效果更为明显地下降。
核心思路:论文的核心思路是将新视角合成问题转化为一个测试时自然视频补全问题。具体来说,就是利用预训练的视频扩散模型强大的生成能力,根据给定的稀疏视角图像,生成一系列连贯的中间视角图像,从而“补全”一个虚拟的相机运动轨迹。这样,就可以利用这些生成的中间视角图像来增强3D场景重建的监督信号,提高重建质量。
技术框架:整体框架包含以下几个主要步骤:1) 伪视角生成:利用预训练的视频扩散模型,根据输入的稀疏视角图像,生成一系列新的视角图像。2) 不确定性感知:引入不确定性感知机制,用于评估生成视角的可靠性,并用于后续的3D重建。3) 3D场景重建:使用3D高斯溅射(3D-GS)方法,利用原始输入图像和生成的伪视角图像,重建3D场景。4) 迭代优化:通过迭代反馈循环,利用3D几何信息反过来指导2D视角合成,从而进一步提高重建和合成质量。
关键创新:该方法最重要的创新点在于将新视角合成问题与视频补全问题联系起来,并利用预训练的视频扩散模型作为强大的先验知识。这种方法避免了对特定场景进行训练或微调,实现了零样本的新视角合成。此外,不确定性感知机制和迭代优化策略也对提高合成质量起到了关键作用。
关键设计:论文的关键设计包括:1) 使用预训练的视频扩散模型,例如 Imagen Video 或 Stable Video Diffusion,作为生成伪视角的 backbone。2) 设计不确定性感知模块,例如通过预测深度图的不确定性来衡量生成视角的可靠性。3) 使用3D高斯溅射(3D-GS)作为3D场景表示方法,并设计合适的损失函数,例如光度一致性损失和深度一致性损失,来优化3D场景。
📊 实验亮点
该方法在LLFF、DTU、DL3DV和MipNeRF-360数据集上进行了评估,并在极端稀疏输入条件下显著优于3D-GS基线。例如,在LLFF数据集上,该方法在PSNR指标上提升了超过3dB,在SSIM指标上提升了超过0.05。这些结果表明,该方法能够有效地利用预训练视频扩散模型的先验知识,生成高质量的新视角图像,并提高3D场景重建的准确性。
🎯 应用场景
该技术可应用于虚拟现实(VR)、增强现实(AR)、机器人导航、自动驾驶等领域。例如,在VR/AR中,用户可以通过少量图像快速生成逼真的3D场景,提升用户体验。在机器人导航和自动驾驶中,该技术可以帮助机器人或车辆在缺乏足够视觉信息的环境下进行导航和定位,提高安全性和可靠性。此外,该技术还可以用于电影制作、游戏开发等领域,降低内容创作的成本。
📄 摘要(原文)
Given just a few glimpses of a scene, can you imagine the movie playing out as the camera glides through it? That's the lens we take on \emph{sparse-input novel view synthesis}, not only as filling spatial gaps between widely spaced views, but also as \emph{completing a natural video} unfolding through space. We recast the task as \emph{test-time natural video completion}, using powerful priors from \emph{pretrained video diffusion models} to hallucinate plausible in-between views. Our \emph{zero-shot, generation-guided} framework produces pseudo views at novel camera poses, modulated by an \emph{uncertainty-aware mechanism} for spatial coherence. These synthesized frames densify supervision for \emph{3D Gaussian Splatting} (3D-GS) for scene reconstruction, especially in under-observed regions. An iterative feedback loop lets 3D geometry and 2D view synthesis inform each other, improving both the scene reconstruction and the generated views. The result is coherent, high-fidelity renderings from sparse inputs \emph{without any scene-specific training or fine-tuning}. On LLFF, DTU, DL3DV, and MipNeRF-360, our method significantly outperforms strong 3D-GS baselines under extreme sparsity.