MS-GS: Multi-Appearance Sparse-View 3D Gaussian Splatting in the Wild

📄 arXiv: 2509.15548v4 📥 PDF

作者: Deming Li, Kaiwen Jiang, Yutao Tang, Ravi Ramamoorthi, Rama Chellappa, Cheng Peng

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-10-24)


💡 一句话要点

提出MS-GS,利用多外观稀疏视图3D高斯溅射重建野外场景。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 稀疏视图重建 多外观建模 单目深度估计 几何先验 虚拟视角监督

📋 核心要点

  1. 现有NeRF和3DGS方法在稀疏视图和多外观场景下易过平滑和过拟合,重建效果不佳。
  2. MS-GS利用单目深度估计的几何先验,提取局部语义区域,并采用SfM点锚定算法进行对齐。
  3. 通过几何引导的虚拟视角监督,在像素和特征层面增强3D一致性,显著提升渲染质量。

📝 摘要(中文)

本文提出了一种名为MS-GS的新框架,该框架利用3D高斯溅射技术,旨在解决野外照片集中图像数量有限且具有多种外观(例如,在一天中的不同时间或不同季节拍摄)时,场景重建和新视角合成所面临的重大挑战。为了解决稀疏初始化导致的缺乏支持问题,我们的方法建立在单目深度估计中提取的几何先验之上。关键在于提取和利用局部语义区域,并采用基于运动结构(SfM)点锚定的算法来实现可靠的对齐和几何线索。然后,为了引入多视角约束,我们提出了一系列在像素和特征级别上进行几何引导监督的虚拟视角步骤,以鼓励3D一致性并减少过拟合。我们还引入了一个数据集和一个野外实验设置,以建立更真实的基准。实验结果表明,MS-GS在各种具有挑战性的稀疏视图和多外观条件下实现了逼真的渲染效果,并且在不同的数据集上明显优于现有方法。

🔬 方法详解

问题定义:论文旨在解决在野外场景中,由于图像数量有限、视角稀疏以及光照、季节等因素导致外观变化多样,使得3D重建和新视角合成变得困难的问题。现有的NeRF和3DGS方法在这种情况下容易出现过平滑和过拟合,无法生成高质量的渲染结果。

核心思路:论文的核心思路是利用单目深度估计提供的几何先验信息,辅助3D高斯溅射的初始化和优化。通过提取局部语义区域并进行对齐,可以更准确地估计场景的几何结构。同时,引入多视角约束,利用虚拟视角进行监督,增强3D一致性,从而减少过拟合。

技术框架:MS-GS框架主要包含以下几个阶段:1) 单目深度估计:利用单目图像估计场景的深度信息,作为几何先验。2) 局部语义区域提取与对齐:提取图像中的局部语义区域,并使用基于SfM点锚定的算法进行对齐,建立局部区域之间的对应关系。3) 3D高斯溅射初始化:利用深度信息和对齐结果初始化3D高斯溅射。4) 虚拟视角监督:在虚拟视角下进行像素和特征级别的监督,增强3D一致性。5) 渲染与优化:使用3D高斯溅射进行渲染,并通过优化高斯参数来提高渲染质量。

关键创新:论文的关键创新在于:1) 提出了一种基于单目深度估计的几何先验引导的3D高斯溅射初始化方法,解决了稀疏视图下的初始化问题。2) 引入了局部语义区域提取与对齐机制,提高了场景几何结构的估计精度。3) 提出了虚拟视角监督策略,增强了3D一致性,有效缓解了过拟合问题。

关键设计:论文的关键设计包括:1) 基于SfM点锚定的局部语义区域对齐算法,确保了不同视角下局部区域的准确对应。2) 虚拟视角监督的损失函数设计,包括像素级别的渲染损失和特征级别的感知损失,共同约束3D结构的优化。3) 数据集和实验设置,更贴近真实的野外场景,为算法的评估提供了更可靠的基准。

📊 实验亮点

MS-GS在多个数据集上取得了显著的性能提升,尤其是在稀疏视图和多外观条件下。实验结果表明,MS-GS能够生成更清晰、更逼真的渲染结果,优于现有的NeRF和3DGS方法。论文还提出了一个新的数据集和实验设置,为该领域的研究提供了更真实的基准。

🎯 应用场景

该研究成果可应用于自动驾驶、增强现实、虚拟现实、城市建模等领域。例如,在自动驾驶中,可以利用该技术重建周围环境的三维模型,提高车辆的感知能力。在增强现实和虚拟现实中,可以生成更逼真的虚拟场景,提升用户体验。在城市建模中,可以快速重建城市的三维模型,为城市规划和管理提供支持。

📄 摘要(原文)

In-the-wild photo collections often contain limited volumes of imagery and exhibit multiple appearances, e.g., taken at different times of day or seasons, posing significant challenges to scene reconstruction and novel view synthesis. Although recent adaptations of Neural Radiance Field (NeRF) and 3D Gaussian Splatting (3DGS) have improved in these areas, they tend to oversmooth and are prone to overfitting. In this paper, we present MS-GS, a novel framework designed with Multi-appearance capabilities in Sparse-view scenarios using 3DGS. To address the lack of support due to sparse initializations, our approach is built on the geometric priors elicited from monocular depth estimations. The key lies in extracting and utilizing local semantic regions with a Structure-from-Motion (SfM) points anchored algorithm for reliable alignment and geometry cues. Then, to introduce multi-view constraints, we propose a series of geometry-guided supervision steps at virtual views in pixel and feature levels to encourage 3D consistency and reduce overfitting. We also introduce a dataset and an in-the-wild experiment setting to set up more realistic benchmarks. We demonstrate that MS-GS achieves photorealistic renderings under various challenging sparse-view and multi-appearance conditions, and outperforms existing approaches significantly across different datasets.