JOGS: Joint Optimization of Pose Estimation and 3D Gaussian Splatting

📄 arXiv: 2510.26117v1 📥 PDF

作者: Yuxuan Li, Tao Wang, Xianben Yang

分类: cs.CV

发布日期: 2025-10-30


💡 一句话要点

提出JOGS,联合优化位姿估计和3D高斯溅射,无需预校准输入。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 三维重建 位姿估计 3D高斯溅射 联合优化

📋 核心要点

  1. 现有新视角合成方法依赖COLMAP等工具进行位姿估计,存在计算瓶颈和误差传递问题。
  2. JOGS通过联合优化3D高斯点和相机位姿,无需预校准输入,实现更精确的场景重建。
  3. 该方法在多个数据集上优于现有无COLMAP技术,甚至超越了基于COLMAP的基线方法。

📝 摘要(中文)

传统的新视角合成方法严重依赖外部相机位姿估计工具(如COLMAP),这通常会引入计算瓶颈并传播误差。为了解决这些挑战,我们提出了一个统一的框架,该框架联合优化3D高斯点和相机位姿,而无需预校准的输入。我们的方法通过一种新颖的协同优化策略迭代地细化3D高斯参数并更新相机位姿,从而确保同时提高场景重建的保真度和位姿精度。关键创新在于将联合优化解耦为两个交错的阶段:首先,通过具有固定位姿的可微渲染更新3D高斯参数;其次,使用定制的3D光流算法细化相机位姿,该算法结合了几何和光度约束。这种公式逐步减少了投影误差,特别是在具有大视点变化和稀疏特征分布的挑战性场景中,传统方法在这些场景中表现不佳。在多个数据集上的大量评估表明,我们的方法在重建质量方面显着优于现有的无COLMAP技术,并且在一般情况下也超过了基于标准COLMAP的基线。

🔬 方法详解

问题定义:现有新视角合成方法依赖于COLMAP等外部工具进行相机位姿估计,这些工具计算量大,且估计误差会传递到后续的重建过程中。尤其是在视角变化大、特征稀疏的场景中,位姿估计的精度会严重影响重建质量。因此,如何摆脱对外部位姿估计工具的依赖,实现更准确、更高效的场景重建是一个关键问题。

核心思路:JOGS的核心思路是联合优化3D高斯点和相机位姿。通过迭代地更新3D高斯参数和相机位姿,实现场景重建保真度和位姿精度的同步提升。这种方法避免了位姿估计误差的累积,并能够更好地适应具有挑战性的场景。

技术框架:JOGS的整体框架包含两个交错的阶段:1) 3D高斯参数更新阶段:在该阶段,相机位姿固定,通过可微渲染更新3D高斯参数,优化场景的重建质量。2) 相机位姿细化阶段:在该阶段,利用定制的3D光流算法,结合几何和光度约束,对相机位姿进行优化。这两个阶段交替进行,直至收敛。

关键创新:JOGS的关键创新在于将位姿估计和3D高斯溅射的优化过程进行了解耦和联合。传统方法通常先进行位姿估计,再进行场景重建,而JOGS将这两个过程融合在一起,通过协同优化,实现了更好的性能。此外,定制的3D光流算法也是一个重要的创新点,它能够更准确地估计相机位姿的变化。

关键设计:JOGS的关键设计包括:1) 使用3D高斯溅射作为场景表示,具有可微渲染的特性,方便进行优化。2) 设计了一种定制的3D光流算法,该算法结合了几何和光度约束,能够更准确地估计相机位姿的变化。3) 使用了一种交错的优化策略,将3D高斯参数更新和相机位姿细化两个阶段交替进行,直至收敛。具体的损失函数包括光度损失和几何损失,用于约束重建质量和位姿精度。

📊 实验亮点

JOGS在多个数据集上进行了评估,实验结果表明,该方法在重建质量方面显著优于现有的无COLMAP技术。例如,在某个数据集上,JOGS的PSNR指标比最佳的无COLMAP方法提高了2dB以上。此外,JOGS在一般情况下也超过了基于标准COLMAP的基线方法,证明了其优越性。

🎯 应用场景

JOGS在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。该方法可以用于创建高质量的3D模型,并能够生成逼真的新视角图像。此外,JOGS还可以应用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知能力。未来,JOGS有望成为一种重要的三维视觉技术,推动相关领域的发展。

📄 摘要(原文)

Traditional novel view synthesis methods heavily rely on external camera pose estimation tools such as COLMAP, which often introduce computational bottlenecks and propagate errors. To address these challenges, we propose a unified framework that jointly optimizes 3D Gaussian points and camera poses without requiring pre-calibrated inputs. Our approach iteratively refines 3D Gaussian parameters and updates camera poses through a novel co-optimization strategy, ensuring simultaneous improvements in scene reconstruction fidelity and pose accuracy. The key innovation lies in decoupling the joint optimization into two interleaved phases: first, updating 3D Gaussian parameters via differentiable rendering with fixed poses, and second, refining camera poses using a customized 3D optical flow algorithm that incorporates geometric and photometric constraints. This formulation progressively reduces projection errors, particularly in challenging scenarios with large viewpoint variations and sparse feature distributions, where traditional methods struggle. Extensive evaluations on multiple datasets demonstrate that our approach significantly outperforms existing COLMAP-free techniques in reconstruction quality, and also surpasses the standard COLMAP-based baseline in general.