EndoWave: Rational-Wavelet 4D Gaussian Splatting for Endoscopic Reconstruction
作者: Taoyu Wu, Yiyi Miao, Jiaxin Guo, Ziyan Chen, Sihang Zhao, Zhuoxiao Li, Zhe Tang, Baoru Huang, Limin Yu
分类: cs.CV, cs.RO
发布日期: 2025-10-27
💡 一句话要点
EndoWave:用于内窥镜重建的Rational-Wavelet 4D高斯溅射
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 内窥镜重建 4D高斯溅射 光流约束 有理小波 时空建模
📋 核心要点
- 内窥镜视频3D重建面临光度变化、组织形变和视角高光等挑战,传统3DGS方法仅依赖外观信息易失效。
- EndoWave结合光流几何约束和多分辨率有理小波监督,在4D时空域优化高斯图元,提升重建精度。
- 在EndoNeRF和StereoMIS数据集上,EndoWave相比现有方法实现了更优的重建质量和视觉准确性。
📝 摘要(中文)
在机器人辅助微创手术中,从内窥镜视频进行精确的3D重建对于下游任务和改善手术结果至关重要。然而,内窥镜场景面临着独特挑战,包括光度不一致性、非刚性组织运动和视角相关的亮点。大多数基于3DGS的方法仅依赖外观约束来优化3DGS,这在内窥镜场景中通常是不够的,因为这些动态视觉伪影会误导优化过程,导致不准确的重建。为了解决这些限制,我们提出了EndoWave,一个统一的时空高斯溅射框架,它结合了基于光流的几何约束和多分辨率有理小波监督。首先,我们采用统一的时空高斯表示,直接在4D域中优化图元。其次,我们提出了一种从光流导出的几何约束,以增强时间一致性并有效地约束场景的3D结构。第三,我们提出了一种多分辨率有理正交小波作为约束,可以有效地分离内窥镜的细节并提高渲染性能。在两个真实手术数据集EndoNeRF和StereoMIS上的大量评估表明,与基线方法相比,我们的方法EndoWave实现了最先进的重建质量和视觉精度。
🔬 方法详解
问题定义:论文旨在解决内窥镜视频三维重建中,由于光照变化、组织非刚性运动以及视角依赖的高光等因素导致的重建精度不足的问题。现有的基于3D高斯溅射(3DGS)的方法主要依赖于外观信息进行优化,在内窥镜场景下容易受到干扰,导致重建结果不准确。
核心思路:论文的核心思路是引入几何约束和多分辨率小波监督,增强时空一致性,从而提高重建的鲁棒性和精度。通过光流估计提供几何约束,约束场景的3D结构,并利用多分辨率有理正交小波来分离内窥镜的细节,提升渲染性能。
技术框架:EndoWave采用统一的时空高斯表示,直接在4D域中优化图元。整体框架包含以下几个关键模块:1) 4D高斯图元表示:使用4D高斯函数表示场景的时空信息。2) 光流估计:利用光流算法估计相邻帧之间的像素运动。3) 几何约束:基于光流估计结果,构建几何约束项,用于约束高斯图元的运动和形变。4) 多分辨率有理小波监督:使用多分辨率有理正交小波对渲染结果进行分解,并对不同尺度的细节信息进行监督。5) 渲染模块:将优化后的4D高斯图元渲染成图像。
关键创新:论文的关键创新在于:1) 提出了统一的时空高斯表示,直接在4D域中优化图元,更好地建模了场景的时空变化。2) 引入了基于光流的几何约束,增强了时间一致性,有效地约束了场景的3D结构。3) 提出了多分辨率有理正交小波监督,可以有效地分离内窥镜的细节并提高渲染性能。与现有方法相比,EndoWave能够更好地处理内窥镜视频中的光照变化、组织非刚性运动等问题。
关键设计:在几何约束方面,论文利用光流估计结果,计算相邻帧之间对应像素的三维坐标差异,并将其作为约束项添加到损失函数中。在多分辨率有理小波监督方面,论文选择合适的有理小波基函数,并设计了相应的损失函数,以鼓励模型学习到更精细的细节信息。具体的损失函数形式和参数设置在论文中有详细描述。
📊 实验亮点
EndoWave在EndoNeRF和StereoMIS两个真实手术数据集上进行了评估,实验结果表明,EndoWave在重建质量和视觉精度方面均优于基线方法。具体而言,EndoWave在PSNR、SSIM等指标上取得了显著提升,表明其能够更准确地重建场景的三维结构和纹理细节。此外,视觉效果对比也表明,EndoWave能够更好地处理光照变化和组织形变等问题,生成更清晰、更逼真的重建结果。
🎯 应用场景
EndoWave在机器人辅助微创手术中具有重要应用价值,可以为医生提供更精确的三维场景重建,辅助手术规划和导航,提高手术的准确性和安全性。该技术还可应用于内窥镜视频分析、病灶检测和三维建模等领域,为医疗诊断和治疗提供更强大的工具。未来,该研究有望推动内窥镜手术的智能化和自动化发展。
📄 摘要(原文)
In robot-assisted minimally invasive surgery, accurate 3D reconstruction from endoscopic video is vital for downstream tasks and improved outcomes. However, endoscopic scenarios present unique challenges, including photometric inconsistencies, non-rigid tissue motion, and view-dependent highlights. Most 3DGS-based methods that rely solely on appearance constraints for optimizing 3DGS are often insufficient in this context, as these dynamic visual artifacts can mislead the optimization process and lead to inaccurate reconstructions. To address these limitations, we present EndoWave, a unified spatio-temporal Gaussian Splatting framework by incorporating an optical flow-based geometric constraint and a multi-resolution rational wavelet supervision. First, we adopt a unified spatio-temporal Gaussian representation that directly optimizes primitives in a 4D domain. Second, we propose a geometric constraint derived from optical flow to enhance temporal coherence and effectively constrain the 3D structure of the scene. Third, we propose a multi-resolution rational orthogonal wavelet as a constraint, which can effectively separate the details of the endoscope and enhance the rendering performance. Extensive evaluations on two real surgical datasets, EndoNeRF and StereoMIS, demonstrate that our method EndoWave achieves state-of-the-art reconstruction quality and visual accuracy compared to the baseline method.