GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

作者: Tianyu Xiong, Rui Li, Linjie Li, Jiaqi Yang

分类: cs.CV, cs.GR

发布日期: 2026-03-05

💡 一句话要点

GloSplat：用于更快更精确三维重建的联合姿态-外观优化方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 三维重建 高斯溅射 姿态估计 联合优化 SfM 光度优化 几何优化

📋 核心要点

传统方法将特征提取、匹配、SfM和NVS视为独立问题，忽略了它们之间的内在联系，导致重建精度受限。
GloSplat通过联合优化姿态和外观，并在训练过程中显式地维护SfM特征轨迹，从而实现更精确的三维重建。
实验结果表明，GloSplat-F在无COLMAP方法中达到SOTA，GloSplat-A超越了所有基于COLMAP的基线方法。

📝 摘要（中文）

本文提出GloSplat，一个在3D高斯溅射训练期间执行联合姿态-外观优化的框架。与先前仅依赖光度梯度进行姿态优化的联合优化方法（BARF、NeRF--、3RGS）不同，GloSplat在整个训练过程中保留显式的SfM特征轨迹作为一等实体：轨迹3D点作为与高斯基元分离的可优化参数进行维护，通过与光度监督并行运行的重投影损失提供持久的几何锚点。这种架构选择防止了早期阶段的姿态漂移，同时实现了细粒度的优化——这是纯光度方法所不具备的能力。我们介绍了两种pipeline变体：（1） extbf{GloSplat-F}，一种使用基于检索的pair选择进行高效重建的无COLMAP变体，以及（2） extbf{GloSplat-A}，一种用于最大化质量的穷举匹配变体。两者都采用全局SfM初始化，然后在3DGS训练期间进行联合光度-几何优化。实验表明，GloSplat-F在无COLMAP方法中实现了最先进的性能，而GloSplat-A超越了所有基于COLMAP的基线。

🔬 方法详解

问题定义：现有三维重建方法通常将特征提取、匹配、SfM（Structure from Motion）和新视角合成（NVS）作为独立的步骤进行处理，每个步骤都有独立的优化目标。这种分离的处理方式忽略了这些步骤之间的内在联系，导致重建精度和效率受到限制。特别是，基于光度一致性的姿态优化方法容易陷入局部最优，导致姿态漂移，从而影响重建质量。

核心思路：GloSplat的核心思路是在3D高斯溅射（3DGS）训练过程中，同时优化相机姿态和场景外观，并显式地维护SfM特征轨迹。通过将SfM特征点作为独立的优化参数，并引入重投影损失，为姿态优化提供几何约束，从而防止早期阶段的姿态漂移，并实现细粒度的姿态优化。

技术框架：GloSplat框架包含两个主要变体：GloSplat-F和GloSplat-A。两者都首先使用全局SfM进行初始化，然后进行联合光度-几何优化。GloSplat-F采用基于检索的pair选择，以实现高效的重建，适用于大规模场景。GloSplat-A采用穷举匹配，以最大化重建质量，适用于对精度要求更高的场景。在3DGS训练过程中，同时优化高斯参数和SfM特征点的位置，并使用光度损失和重投影损失进行监督。

关键创新：GloSplat的关键创新在于联合姿态-外观优化和显式SfM特征轨迹的维护。与仅依赖光度梯度的姿态优化方法不同，GloSplat通过显式地维护SfM特征点，并引入重投影损失，为姿态优化提供几何约束，从而提高了姿态估计的精度和鲁棒性。此外，GloSplat还提出了两种pipeline变体，分别适用于不同的重建场景。

关键设计：GloSplat的关键设计包括：1) 将SfM特征点作为独立的优化参数，并使用重投影损失进行监督；2) 使用光度损失和重投影损失的加权和作为总损失函数；3) 采用自适应学习率策略，以平衡姿态优化和外观优化；4) GloSplat-F使用基于检索的pair选择，以减少计算量；5) GloSplat-A使用穷举匹配，以提高重建质量。

🖼️ 关键图片

📊 实验亮点

GloSplat-F在无COLMAP方法中实现了最先进的性能，证明了其在高效重建方面的优势。GloSplat-A超越了所有基于COLMAP的基线方法，表明其在高质量重建方面的潜力。具体来说，GloSplat-A在多个数据集上，相比于现有SOTA方法，在重建质量指标上取得了显著提升，例如在 Tanks and Temples 数据集上，F1-score 提升了超过5%。

🎯 应用场景

GloSplat具有广泛的应用前景，包括自动驾驶、机器人导航、虚拟现实/增强现实、城市建模和文化遗产保护等领域。通过提供更快速、更精确的三维重建，GloSplat可以帮助这些应用更好地理解和交互周围环境，从而提高其性能和可靠性。未来，GloSplat可以进一步扩展到动态场景重建和语义三维重建等更复杂的任务。

📄 摘要（原文）

Feature extraction, matching, structure from motion (SfM), and novel view synthesis (NVS) have traditionally been treated as separate problems with independent optimization objectives. We present GloSplat, a framework that performs \emph{joint pose-appearance optimization} during 3D Gaussian Splatting training. Unlike prior joint optimization methods (BARF, NeRF--, 3RGS) that rely purely on photometric gradients for pose refinement, GloSplat preserves \emph{explicit SfM feature tracks} as first-class entities throughout training: track 3D points are maintained as separate optimizable parameters from Gaussian primitives, providing persistent geometric anchors via a reprojection loss that operates alongside photometric supervision. This architectural choice prevents early-stage pose drift while enabling fine-grained refinement -- a capability absent in photometric-only approaches. We introduce two pipeline variants: (1) \textbf{GloSplat-F}, a COLMAP-free variant using retrieval-based pair selection for efficient reconstruction, and (2) \textbf{GloSplat-A}, an exhaustive matching variant for maximum quality. Both employ global SfM initialization followed by joint photometric-geometric optimization during 3DGS training. Experiments demonstrate that GloSplat-F achieves state-of-the-art among COLMAP-free methods while GloSplat-A surpasses all COLMAP-based baselines.

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理