Sparse View Distractor-Free Gaussian Splatting

📄 arXiv: 2603.01603v1 📥 PDF

作者: Yi Gu, Zhaorui Wang, Jiahang Cao, Jiaxu Wang, Mingle Zhao, Dongjun Ye, Renjing Xu

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出基于先验信息的稀疏视图无干扰高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D高斯溅射 新视角合成 稀疏视图 瞬态对象 几何先验 语义先验 无干扰学习

📋 核心要点

  1. 现有无干扰3DGS方法在密集视图下表现良好,但在稀疏视图下性能显著下降,主要原因是颜色残差启发式变得不可靠。
  2. 该论文提出利用几何基础模型和视觉-语言模型,从几何和语义层面引入先验信息,辅助稀疏视图下的无干扰3DGS训练。
  3. 实验结果表明,该方法能够有效缓解瞬态干扰,提升稀疏视图下3DGS的训练效果和新视角合成质量。

📝 摘要(中文)

3D高斯溅射(3DGS)能够在静态环境中实现高效的训练和快速的新视角合成。为了解决瞬态对象带来的挑战,已经出现了无干扰3DGS方法,并在密集图像捕获可用时显示出有希望的结果。然而,在稀疏输入条件下,它们的性能会显著下降。这种限制主要源于依赖颜色残差启发式来指导训练,而颜色残差启发式在有限的观测条件下变得不可靠。本文提出了一种通过结合丰富的先验信息来增强稀疏视图条件下无干扰3DGS的框架。具体来说,我们首先采用几何基础模型VGGT来估计相机参数并生成密集的初始3D点集。然后,我们利用VGGT的注意力图进行高效和准确的语义实体匹配。此外,我们利用视觉-语言模型(VLMs)来进一步识别和保留场景中的大型静态区域。我们还展示了如何将这些先验无缝地集成到现有的无干扰3DGS方法中。大量的实验证实了我们的方法在缓解稀疏视图3DGS训练中瞬态干扰方面的有效性和鲁棒性。

🔬 方法详解

问题定义:现有无干扰3DGS方法在密集视图下表现良好,但当输入视图稀疏时,其性能会显著下降。这是因为这些方法依赖于颜色残差启发式来指导训练,而在稀疏视图下,颜色残差信息变得不准确和不可靠,导致训练过程受到瞬态对象(如移动的行人或车辆)的干扰,最终影响新视角的合成质量。

核心思路:该论文的核心思路是利用先验知识来弥补稀疏视图带来的信息缺失。具体来说,论文利用几何基础模型(VGGT)提供几何先验,估计相机参数并生成初始3D点云;利用视觉-语言模型(VLM)提供语义先验,识别和保留场景中的静态区域。通过融合这些先验信息,可以更准确地指导3DGS的训练,从而减少瞬态对象的干扰。

技术框架:该方法主要包含以下几个阶段:1) 利用几何基础模型VGGT估计相机参数,并生成密集的初始3D点云。2) 利用VGGT的注意力图进行语义实体匹配,区分静态和动态区域。3) 利用视觉-语言模型识别并保留场景中的大型静态区域。4) 将这些先验信息无缝集成到现有的无干扰3DGS方法中,指导高斯参数的优化。

关键创新:该论文的关键创新在于将几何基础模型和视觉-语言模型引入到稀疏视图的无干扰3DGS训练中。与传统的仅依赖颜色残差的方法相比,该方法能够利用更丰富的先验信息,从而更准确地识别和去除瞬态对象,提升训练的鲁棒性和新视角合成的质量。

关键设计:论文的关键设计包括:1) 使用VGGT的注意力图进行语义实体匹配,通过分析不同区域的注意力权重来区分静态和动态对象。2) 使用VLM识别大型静态区域,并将其作为训练的重点,以保证场景结构的完整性。3) 将先验信息以损失函数的形式集成到3DGS的优化过程中,引导高斯参数向更合理的方向更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在稀疏视图下能够显著提升无干扰3DGS的性能。与现有方法相比,该方法能够更有效地去除瞬态对象的干扰,生成更清晰、更准确的新视角图像。具体性能提升数据在论文中进行了详细的量化分析。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在这些场景中,通常需要在有限的视角下快速重建三维场景,并去除动态物体的干扰。该方法能够提升重建的精度和鲁棒性,为后续的任务提供更可靠的环境信息。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) enables efficient training and fast novel view synthesis in static environments. To address challenges posed by transient objects, distractor-free 3DGS methods have emerged and shown promising results when dense image captures are available. However, their performance degrades significantly under sparse input conditions. This limitation primarily stems from the reliance on the color residual heuristics to guide the training, which becomes unreliable with limited observations. In this work, we propose a framework to enhance distractor-free 3DGS under sparse-view conditions by incorporating rich prior information. Specifically, we first adopt the geometry foundation model VGGT to estimate camera parameters and generate a dense set of initial 3D points. Then, we harness the attention maps from VGGT for efficient and accurate semantic entity matching. Additionally, we utilize Vision-Language Models (VLMs) to further identify and preserve the large static regions in the scene. We also demonstrate how these priors can be seamlessly integrated into existing distractor-free 3DGS methods. Extensive experiments confirm the effectiveness and robustness of our approach in mitigating transient distractors for sparse-view 3DGS training.