GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction
作者: Tianyu Xiong, Rui Li, Linjie Li, Jiaqi Yang
分类: cs.CV, cs.GR
发布日期: 2026-03-05
💡 一句话要点
GloSplat:用于更快更精确三维重建的联合姿态-外观优化方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 高斯溅射 姿态估计 联合优化 SfM 光度优化 几何优化
📋 核心要点
- 传统方法将特征提取、匹配、SfM和NVS视为独立问题,忽略了它们之间的内在联系,导致重建精度受限。
- GloSplat通过联合优化姿态和外观,并在训练过程中显式地维护SfM特征轨迹,从而实现更精确的三维重建。
- 实验结果表明,GloSplat-F在无COLMAP方法中达到SOTA,GloSplat-A超越了所有基于COLMAP的基线方法。
📝 摘要(中文)
本文提出GloSplat,一个在3D高斯溅射训练期间执行联合姿态-外观优化的框架。与先前仅依赖光度梯度进行姿态优化的联合优化方法(BARF、NeRF--、3RGS)不同,GloSplat在整个训练过程中保留显式的SfM特征轨迹作为一等实体:轨迹3D点作为与高斯基元分离的可优化参数进行维护,通过与光度监督并行运行的重投影损失提供持久的几何锚点。这种架构选择防止了早期阶段的姿态漂移,同时实现了细粒度的优化——这是纯光度方法所不具备的能力。我们介绍了两种pipeline变体:(1) extbf{GloSplat-F},一种使用基于检索的pair选择进行高效重建的无COLMAP变体,以及(2) extbf{GloSplat-A},一种用于最大化质量的穷举匹配变体。两者都采用全局SfM初始化,然后在3DGS训练期间进行联合光度-几何优化。实验表明,GloSplat-F在无COLMAP方法中实现了最先进的性能,而GloSplat-A超越了所有基于COLMAP的基线。
🔬 方法详解
问题定义:现有三维重建方法通常将特征提取、匹配、SfM(Structure from Motion)和新视角合成(NVS)作为独立的步骤进行处理,每个步骤都有独立的优化目标。这种分离的处理方式忽略了这些步骤之间的内在联系,导致重建精度和效率受到限制。特别是,基于光度一致性的姿态优化方法容易陷入局部最优,导致姿态漂移,从而影响重建质量。
核心思路:GloSplat的核心思路是在3D高斯溅射(3DGS)训练过程中,同时优化相机姿态和场景外观,并显式地维护SfM特征轨迹。通过将SfM特征点作为独立的优化参数,并引入重投影损失,为姿态优化提供几何约束,从而防止早期阶段的姿态漂移,并实现细粒度的姿态优化。
技术框架:GloSplat框架包含两个主要变体:GloSplat-F和GloSplat-A。两者都首先使用全局SfM进行初始化,然后进行联合光度-几何优化。GloSplat-F采用基于检索的pair选择,以实现高效的重建,适用于大规模场景。GloSplat-A采用穷举匹配,以最大化重建质量,适用于对精度要求更高的场景。在3DGS训练过程中,同时优化高斯参数和SfM特征点的位置,并使用光度损失和重投影损失进行监督。
关键创新:GloSplat的关键创新在于联合姿态-外观优化和显式SfM特征轨迹的维护。与仅依赖光度梯度的姿态优化方法不同,GloSplat通过显式地维护SfM特征点,并引入重投影损失,为姿态优化提供几何约束,从而提高了姿态估计的精度和鲁棒性。此外,GloSplat还提出了两种pipeline变体,分别适用于不同的重建场景。
关键设计:GloSplat的关键设计包括:1) 将SfM特征点作为独立的优化参数,并使用重投影损失进行监督;2) 使用光度损失和重投影损失的加权和作为总损失函数;3) 采用自适应学习率策略,以平衡姿态优化和外观优化;4) GloSplat-F使用基于检索的pair选择,以减少计算量;5) GloSplat-A使用穷举匹配,以提高重建质量。
🖼️ 关键图片
📊 实验亮点
GloSplat-F在无COLMAP方法中实现了最先进的性能,证明了其在高效重建方面的优势。GloSplat-A超越了所有基于COLMAP的基线方法,表明其在高质量重建方面的潜力。具体来说,GloSplat-A在多个数据集上,相比于现有SOTA方法,在重建质量指标上取得了显著提升,例如在 Tanks and Temples 数据集上,F1-score 提升了超过5%。
🎯 应用场景
GloSplat具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实/增强现实、城市建模和文化遗产保护等领域。通过提供更快速、更精确的三维重建,GloSplat可以帮助这些应用更好地理解和交互周围环境,从而提高其性能和可靠性。未来,GloSplat可以进一步扩展到动态场景重建和语义三维重建等更复杂的任务。
📄 摘要(原文)
Feature extraction, matching, structure from motion (SfM), and novel view synthesis (NVS) have traditionally been treated as separate problems with independent optimization objectives. We present GloSplat, a framework that performs \emph{joint pose-appearance optimization} during 3D Gaussian Splatting training. Unlike prior joint optimization methods (BARF, NeRF--, 3RGS) that rely purely on photometric gradients for pose refinement, GloSplat preserves \emph{explicit SfM feature tracks} as first-class entities throughout training: track 3D points are maintained as separate optimizable parameters from Gaussian primitives, providing persistent geometric anchors via a reprojection loss that operates alongside photometric supervision. This architectural choice prevents early-stage pose drift while enabling fine-grained refinement -- a capability absent in photometric-only approaches. We introduce two pipeline variants: (1) \textbf{GloSplat-F}, a COLMAP-free variant using retrieval-based pair selection for efficient reconstruction, and (2) \textbf{GloSplat-A}, an exhaustive matching variant for maximum quality. Both employ global SfM initialization followed by joint photometric-geometric optimization during 3DGS training. Experiments demonstrate that GloSplat-F achieves state-of-the-art among COLMAP-free methods while GloSplat-A surpasses all COLMAP-based baselines.