Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

📄 arXiv: 2603.02866v1 📥 PDF

作者: Kaiqiang Xiong, Zhanke Wang, Ronggang Wang

分类: cs.CV

发布日期: 2026-03-03


💡 一句话要点

提出多模态先验引导的重要性采样,用于稀疏视角下的层级高斯溅射新视角合成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 三维重建 高斯溅射 多模态融合 重要性采样 稀疏视角 几何先验

📋 核心要点

  1. 现有方法在稀疏视角新视角合成中易受纹理过拟合和噪声干扰,导致重建质量下降。
  2. 提出一种多模态先验引导的重要性采样方法,融合光度、语义和几何信息,提升局部可恢复性估计的准确性。
  3. 实验表明,该方法在稀疏视角重建任务中取得了state-of-the-art的结果,例如在DTU数据集上PSNR提升高达+0.3dB。

📝 摘要(中文)

本文提出了一种多模态先验引导的重要性采样方法,用于稀疏视角下的层级3D高斯溅射(3DGS)新视角合成。该采样器融合了互补的信息来源,包括光度渲染残差、语义先验和几何先验,以产生鲁棒的局部可恢复性估计,从而直接驱动精细高斯体的注入位置。围绕这个采样核心,我们的框架包含:(1)一种由粗到精的高斯表示,它用稳定的粗糙层编码全局形状,并有选择地在多模态度量表明可恢复细节的位置添加精细图元;(2)一种几何感知采样和保留策略,该策略将细化集中在几何上关键和复杂的区域,同时保护约束不足区域中新添加的图元免于过早修剪。通过优先考虑由一致的多模态证据支持的区域,而不是单独的原始残差,我们的方法减轻了过度拟合纹理引起的误差,并抑制了姿势/外观不一致性带来的噪声。在各种稀疏视角基准上的实验表明,该方法实现了最先进的重建效果,在DTU数据集上PSNR提升高达+0.3 dB。

🔬 方法详解

问题定义:论文旨在解决稀疏视角下新视角合成中,由于数据稀疏和视角差异大,导致三维重建质量不高的问题。现有方法容易受到纹理过拟合和噪声的影响,尤其是在缺乏几何约束的区域,导致重建结果出现伪影和模糊。

核心思路:论文的核心思路是利用多模态先验信息(光度、语义和几何)来指导高斯体的采样和优化过程。通过融合这些互补的信息,可以更准确地估计场景的局部可恢复性,从而在需要精细细节的区域注入更多的高斯体,同时避免在噪声区域过度拟合。

技术框架:该框架包含两个主要部分:(1)由粗到精的高斯表示:首先使用一个粗糙的高斯层来编码场景的全局形状,然后根据多模态度量选择性地添加精细的高斯图元。 (2)几何感知采样和保留策略:该策略将细化集中在几何上关键和复杂的区域,同时保护约束不足区域中新添加的图元免于过早修剪。

关键创新:最重要的创新点在于多模态先验引导的重要性采样。与传统的基于渲染残差的采样方法不同,该方法融合了光度、语义和几何信息,从而能够更鲁棒地估计局部可恢复性。这种多模态融合的方式可以有效抑制噪声和纹理过拟合,提高重建质量。

关键设计:具体来说,光度先验通过渲染残差来衡量重建误差;语义先验利用预训练的语义分割模型来提供场景的语义信息;几何先验则通过视角一致性等几何约束来提高重建的准确性。这些先验信息被融合到一个统一的度量中,用于指导高斯体的采样和优化。此外,几何感知采样和保留策略通过自适应地调整采样密度和修剪阈值,来平衡重建质量和计算效率。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在多个稀疏视角数据集上取得了state-of-the-art的性能。例如,在DTU数据集上,该方法的PSNR指标比现有最佳方法提高了+0.3 dB。此外,该方法在视觉质量方面也表现出色,能够生成更清晰、更逼真的三维重建结果,有效抑制了噪声和伪影。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实/增强现实等领域。在这些应用中,从有限的视角重建高质量的三维场景至关重要。例如,自动驾驶系统可以利用该技术从稀疏的传感器数据中重建周围环境,从而提高感知能力和安全性。该技术还可以用于创建逼真的虚拟现实体验,用户可以通过有限的图像或视频输入来生成沉浸式的三维场景。

📄 摘要(原文)

We present multimodal-prior-guided importance sampling as the central mechanism for hierarchical 3D Gaussian Splatting (3DGS) in sparse-view novel view synthesis. Our sampler fuses complementary cues { -- } photometric rendering residuals, semantic priors, and geometric priors { -- } to produce a robust, local recoverability estimate that directly drives where to inject fine Gaussians. Built around this sampling core, our framework comprises (1) a coarse-to-fine Gaussian representation that encodes global shape with a stable coarse layer and selectively adds fine primitives where the multimodal metric indicates recoverable detail; and (2) a geometric-aware sampling and retention policy that concentrates refinement on geometrically critical and complex regions while protecting newly added primitives in underconstrained areas from premature pruning. By prioritizing regions supported by consistent multimodal evidence rather than raw residuals alone, our method alleviates overfitting texture-induced errors and suppresses noise from pose/appearance inconsistencies. Experiments on diverse sparse-view benchmarks demonstrate state-of-the-art reconstructions, with up to +0.3 dB PSNR on DTU.