Endo-G$^{2}$T: Geometry-Guided & Temporally Aware Time-Embedded 4DGS For Endoscopic Scenes
作者: Yangle Liu, Fengze Li, Kan Liu, Jieming Ma
分类: cs.CV
发布日期: 2025-11-26
💡 一句话要点
Endo-G²T:针对内窥镜场景,提出几何引导和时序感知的时序嵌入4D高斯溅射方法
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 内窥镜 4D高斯溅射 几何引导 时序一致性 单目重建
📋 核心要点
- 内窥镜视频重建面临视角依赖效应和光度监督不一致导致的几何漂移问题。
- Endo-G²T通过几何先验蒸馏、时序嵌入高斯场和关键帧约束流式传输来解决上述问题。
- 实验表明,Endo-G²T在内窥镜数据集上优于现有单目重建方法,实现了最先进的性能。
📝 摘要(中文)
内窥镜视频表现出强烈的视角依赖效应,如镜面反射、湿反射和遮挡。纯粹的光度监督与几何结构不一致,导致早期几何漂移,错误的形状在致密化过程中被加强,难以纠正。本文提出Endo-G²T,一种用于时序嵌入4D高斯溅射的几何引导和时序感知训练方案,旨在解决动态内窥镜场景中如何尽早锚定几何结构,同时保持时间一致性和效率的问题。首先,几何引导的先验知识蒸馏将置信度门控的单目深度转换为具有尺度不变深度和深度梯度损失的监督,使用warm-up-to-cap策略柔和地注入先验知识,避免早期过拟合。其次,时间嵌入高斯场使用类似转子的旋转参数化在XYZT中表示动态,产生时间上连贯的几何结构,并采用轻量级正则化,有利于平滑运动和清晰的不透明度边界。第三,关键帧约束流式传输通过在最大点数预算下进行以关键帧为中心的优化,提高了效率和长时程稳定性,而非关键帧则通过轻量级更新来推进。在EndoNeRF和StereoMIS-P1数据集上,Endo-G²T在单目重建基线中实现了最先进的结果。
🔬 方法详解
问题定义:内窥镜视频重建任务中,由于视角依赖效应(如镜面反射、湿反射)和遮挡,仅依赖光度监督会导致几何结构漂移,使得重建结果不准确。现有方法难以在保持时间一致性的同时,有效地利用几何先验信息来约束重建过程。
核心思路:Endo-G²T的核心思路是尽早地将几何先验信息融入到4D高斯溅射的训练过程中,并保持时间一致性。通过几何引导的先验知识蒸馏来提供几何约束,并使用时间嵌入高斯场来建模动态场景,从而避免早期几何漂移,提高重建精度。
技术框架:Endo-G²T的整体框架包含三个主要模块:1) 几何引导的先验知识蒸馏:利用单目深度估计结果作为几何先验,通过尺度不变深度损失和深度梯度损失来约束高斯溅射的训练。2) 时间嵌入高斯场:使用类似转子的旋转参数化来表示高斯分布在时间上的变化,从而建模动态场景。3) 关键帧约束流式传输:通过关键帧优化和非关键帧更新,提高训练效率和长时程稳定性。
关键创新:Endo-G²T的关键创新在于:1) 提出了一种几何引导的先验知识蒸馏方法,能够有效地将单目深度估计结果融入到4D高斯溅射的训练中。2) 使用时间嵌入高斯场来建模动态场景,并采用类似转子的旋转参数化,从而实现时间一致的几何重建。3) 引入关键帧约束流式传输,提高了训练效率和长时程稳定性。
关键设计:几何引导的先验知识蒸馏使用warm-up-to-cap策略,逐渐增加几何先验的权重,避免早期过拟合。时间嵌入高斯场使用轻量级正则化,鼓励平滑运动和清晰的不透明度边界。关键帧约束流式传输通过最大点数预算来控制计算资源的使用,并采用关键帧优化和非关键帧更新相结合的方式。
📊 实验亮点
Endo-G²T在EndoNeRF和StereoMIS-P1数据集上取得了state-of-the-art的结果。相较于现有的单目重建基线方法,Endo-G²T在重建精度和时间一致性方面均有显著提升。实验结果表明,几何引导的先验知识蒸馏和时间嵌入高斯场能够有效地提高内窥镜图像的三维重建质量。
🎯 应用场景
Endo-G²T在医疗内窥镜领域具有广泛的应用前景,例如可以用于术中导航、病灶检测和三维重建。该方法能够提高内窥镜图像的三维重建精度和时间一致性,为医生提供更准确的术中信息,从而提高手术的成功率和安全性。此外,该方法还可以应用于其他动态场景的三维重建任务中。
📄 摘要(原文)
Endoscopic (endo) video exhibits strong view-dependent effects such as specularities, wet reflections, and occlusions. Pure photometric supervision misaligns with geometry and triggers early geometric drift, where erroneous shapes are reinforced during densification and become hard to correct. We ask how to anchor geometry early for 4D Gaussian splatting (4DGS) while maintaining temporal consistency and efficiency in dynamic endoscopic scenes. Thus, we present Endo-G$^{2}$T, a geometry-guided and temporally aware training scheme for time-embedded 4DGS. First, geo-guided prior distillation converts confidence-gated monocular depth into supervision with scale-invariant depth and depth-gradient losses, using a warm-up-to-cap schedule to inject priors softly and avoid early overfitting. Second, a time-embedded Gaussian field represents dynamics in XYZT with a rotor-like rotation parameterization, yielding temporally coherent geometry with lightweight regularization that favors smooth motion and crisp opacity boundaries. Third, keyframe-constrained streaming improves efficiency and long-horizon stability through keyframe-focused optimization under a max-points budget, while non-keyframes advance with lightweight updates. Across EndoNeRF and StereoMIS-P1 datasets, Endo-G$^{2}$T achieves state-of-the-art results among monocular reconstruction baselines.