3D Gaussian Flats: Hybrid 2D/3D Photometric Scene Reconstruction

📄 arXiv: 2509.16423v2 📥 PDF

作者: Maria Taktasheva, Lily Goli, Alessandro Fiorini, Zhen Li, Daniel Rebain, Andrea Tagliasacchi

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-09-23)


💡 一句话要点

提出混合2D/3D高斯平面表示,提升纹理缺失场景的三维重建质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 辐射场 高斯表示 平面检测 深度估计

📋 核心要点

  1. 现有方法在处理平坦无纹理表面时,光度重建效果差,导致重建结果不均匀和半透明。
  2. 提出混合2D/3D高斯表示,利用约束平面高斯建模平坦表面,自由曲面高斯建模其他区域。
  3. 实验表明,该方法在ScanNet++和ScanNetv2数据集上实现了最先进的深度估计,并能有效提取网格。

📝 摘要(中文)

近年来,辐射场和新视角合成技术的发展使得从照片中创建逼真的数字孪生体成为可能。然而,由于光度重建目标的不适定性,现有方法在处理平坦、无纹理表面时表现不佳,导致重建结果不均匀且半透明。表面重建方法虽然可以解决这个问题,但牺牲了视觉质量。本文提出了一种新颖的混合2D/3D表示方法,该方法联合优化约束平面(2D)高斯模型来建模平坦表面,并使用自由曲面(3D)高斯模型来建模场景的其余部分。我们的端到端方法可以动态地检测和细化平面区域,从而提高视觉保真度和几何精度。该方法在ScanNet++和ScanNetv2上实现了最先进的深度估计,并且擅长网格提取,而不会过度拟合特定的相机模型,展示了其在生成高质量室内场景重建方面的有效性。

🔬 方法详解

问题定义:现有基于辐射场的三维重建方法在处理缺乏纹理的平面区域时,由于光度一致性约束不足,容易产生伪影和几何失真。传统的表面重建方法虽然可以解决几何问题,但通常会牺牲视觉质量,无法达到照片级真实感。

核心思路:论文的核心思路是将场景表示为2D平面高斯和3D高斯的混合体。对于检测到的平面区域,使用参数化的2D高斯表示,利用平面约束来提高重建的稳定性。对于场景中的其他非平面区域,则使用3D高斯表示,以保持重建的灵活性和视觉质量。通过这种混合表示,可以兼顾几何精度和视觉逼真度。

技术框架:该方法是一个端到端的优化框架,主要包含以下几个阶段:1) 平面检测:使用深度信息或图像特征来检测场景中的平面区域。2) 混合高斯初始化:对检测到的平面区域初始化2D高斯,对其他区域初始化3D高斯。3) 联合优化:同时优化2D和3D高斯的参数,包括位置、方向、形状和颜色等。4) 平面细化:在优化过程中,动态调整平面区域的划分,以适应场景的变化。

关键创新:该方法最重要的创新点在于提出了混合2D/3D高斯表示,将参数化的平面表示与自由曲面表示相结合,从而在处理平坦无纹理区域时能够获得更好的重建效果。与现有方法相比,该方法能够更好地利用平面约束,减少伪影,提高几何精度。

关键设计:在平面检测阶段,可以使用RANSAC等算法从点云中提取平面。在联合优化阶段,可以使用光度损失和深度损失来约束高斯参数的更新。为了保证平面的光滑性,可以引入正则化项。此外,还可以设计专门的损失函数来鼓励2D高斯与3D高斯之间的平滑过渡。

📊 实验亮点

该方法在ScanNet++和ScanNetv2数据集上实现了最先进的深度估计结果,显著优于现有的辐射场方法。此外,该方法在网格提取方面也表现出色,能够生成高质量的网格模型,而不会过度拟合特定的相机模型。实验结果表明,该方法在视觉保真度和几何精度方面都取得了显著提升。

🎯 应用场景

该研究成果可应用于室内场景的三维重建、虚拟现实、增强现实、机器人导航等领域。通过提高对平坦无纹理表面的重建质量,可以为这些应用提供更准确、更逼真的三维模型,从而提升用户体验和系统性能。未来,该方法有望扩展到更大规模、更复杂的场景重建中。

📄 摘要(原文)

Recent advances in radiance fields and novel view synthesis enable creation of realistic digital twins from photographs. However, current methods struggle with flat, texture-less surfaces, creating uneven and semi-transparent reconstructions, due to an ill-conditioned photometric reconstruction objective. Surface reconstruction methods solve this issue but sacrifice visual quality. We propose a novel hybrid 2D/3D representation that jointly optimizes constrained planar (2D) Gaussians for modeling flat surfaces and freeform (3D) Gaussians for the rest of the scene. Our end-to-end approach dynamically detects and refines planar regions, improving both visual fidelity and geometric accuracy. It achieves state-of-the-art depth estimation on ScanNet++ and ScanNetv2, and excels at mesh extraction without overfitting to a specific camera model, showing its effectiveness in producing high-quality reconstruction of indoor scenes.