Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction

📄 arXiv: 2511.22704v1 📥 PDF

作者: Boyao Zhou, Shunyuan Zheng, Zhanfeng Liao, Zihan Ma, Hanzhang Tu, Boning Liu, Yebin Liu

分类: cs.CV

发布日期: 2025-11-27

备注: Accepted by AAAI 2026. Project page: https://yaourtb.github.io/Splat-SAP


💡 一句话要点

Splat-SAP:面向以人为中心的稀疏场景,提出基于尺度感知点图重建的前馈高斯溅射方法

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 高斯溅射 自由视点渲染 点图重建 稀疏视图 以人为中心场景

📋 核心要点

  1. 现有基于多视图立体的feed-forward高斯溅射方法依赖于输入视图的大量重叠,难以处理稀疏视图场景。
  2. Splat-SAP利用像素级点图重建表示几何信息,对独立视图建模,从而对大稀疏度具有鲁棒性。
  3. 该方法通过两阶段学习策略,结合自监督和光度监督,在以人为中心的数据集上实现了高质量的自由视点渲染。

📝 摘要(中文)

我们提出了Splat-SAP,一种前馈方法,用于从具有大稀疏度的双目相机渲染以人为中心的场景的新视角。高斯溅射在渲染任务中显示出其潜力,但通常需要对每个场景进行优化,并需要密集的输入视图。虽然最近的一些方法通过多视图立体获得的几何先验实现了前馈高斯溅射渲染,但这些方法仍然需要大量重叠的输入视图来建立几何先验。为了弥合这一差距,我们利用像素级的点图重建来表示几何,因为它对独立视图建模具有鲁棒性,能够处理大的稀疏度。一般来说,我们提出了一种两阶段的学习策略。在第一阶段,我们通过迭代的亲和力学习过程将点图转换为真实空间,这有助于后续的相机控制。在第二阶段,我们将两个输入视图的点图投影到目标视图平面上,并通过立体匹配来细化这种几何。此外,我们将高斯基元锚定在这个细化的平面上,以便渲染高质量的图像。作为一种度量表示,第一阶段中的尺度感知点图以自监督的方式进行训练,无需3D监督,第二阶段则以光度损失进行监督。我们收集了多视图以人为中心的数据,并证明我们的方法提高了点图重建的稳定性和自由视点渲染的视觉质量。

🔬 方法详解

问题定义:论文旨在解决从稀疏双目相机视图中,高质量地渲染以人为中心的场景的新视角的问题。现有方法,特别是那些依赖多视图立体(MVS)来建立几何先验的方法,通常需要输入视图之间有大量的重叠,这限制了它们在稀疏视图场景中的应用。这些方法难以在视图稀疏的情况下准确重建几何结构,导致渲染质量下降。

核心思路:论文的核心思路是利用像素级的点图重建来表示场景的几何信息。与依赖视图间重叠的MVS方法不同,点图重建对每个视图独立建模,因此对视图的稀疏性具有更强的鲁棒性。通过将点图转换为真实空间,并进行立体匹配细化,可以获得更准确的几何信息,从而实现高质量的渲染。

技术框架:Splat-SAP采用两阶段的学习策略。第一阶段,通过迭代的亲和力学习过程将点图转换为真实空间,为后续的相机控制提供便利。第二阶段,将两个输入视图的点图投影到目标视图平面上,并通过立体匹配来细化几何结构。最后,将高斯基元锚定在这个细化的平面上,用于渲染高质量的图像。整体流程包括点图重建、空间转换、立体匹配和高斯溅射渲染四个主要步骤。

关键创新:该方法最重要的创新点在于使用尺度感知的点图来表示几何信息,并采用两阶段的学习策略。尺度感知的点图能够更好地捕捉场景的几何细节,而两阶段的学习策略则分别负责点图的空间转换和几何细化,从而提高了重建的准确性和渲染质量。此外,该方法采用自监督的方式训练第一阶段的点图重建,无需3D监督数据。

关键设计:在第一阶段,使用自监督损失函数训练尺度感知的点图,损失函数的设计需要保证点图的尺度一致性。在第二阶段,使用光度损失函数监督几何细化过程,确保渲染结果与目标视图一致。迭代的亲和力学习过程是点图空间转换的关键,其参数设置会影响转换的准确性。高斯基元的参数初始化和优化策略也会影响最终的渲染质量。

📊 实验亮点

论文收集了多视图以人为中心的数据集,并在该数据集上验证了Splat-SAP的有效性。实验结果表明,该方法能够提高点图重建的稳定性和自由视点渲染的视觉质量。与现有方法相比,Splat-SAP在稀疏视图场景下能够生成更准确的几何结构和更高质量的渲染结果。具体的性能数据(例如PSNR、SSIM等)和对比基线需要在论文中查找。

🎯 应用场景

Splat-SAP具有广泛的应用前景,包括虚拟现实(VR)、增强现实(AR)、自由视点视频、远程呈现和人体重建等领域。该方法能够从有限的相机视图中生成高质量的3D场景表示,为用户提供沉浸式的体验。此外,该方法还可以应用于人机交互、智能监控和机器人导航等领域。

📄 摘要(原文)

We present Splat-SAP, a feed-forward approach to render novel views of human-centered scenes from binocular cameras with large sparsity. Gaussian Splatting has shown its promising potential in rendering tasks, but it typically necessitates per-scene optimization with dense input views. Although some recent approaches achieve feed-forward Gaussian Splatting rendering through geometry priors obtained by multi-view stereo, such approaches still require largely overlapped input views to establish the geometry prior. To bridge this gap, we leverage pixel-wise point map reconstruction to represent geometry which is robust to large sparsity for its independent view modeling. In general, we propose a two-stage learning strategy. In stage 1, we transform the point map into real space via an iterative affinity learning process, which facilitates camera control in the following. In stage 2, we project point maps of two input views onto the target view plane and refine such geometry via stereo matching. Furthermore, we anchor Gaussian primitives on this refined plane in order to render high-quality images. As a metric representation, the scale-aware point map in stage 1 is trained in a self-supervised manner without 3D supervision and stage 2 is supervised with photo-metric loss. We collect multi-view human-centered data and demonstrate that our method improves both the stability of point map reconstruction and the visual quality of free-viewpoint rendering.