BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation

作者: Hongchao Shu, Roger D. Soberanis-Mukul, Jiru Xu, Hao Ding, Morgan Ringel, Mali Shen, Saif Iftekar Sayed, Hedyeh Rafii-Tari, Mathias Unberath

分类: cs.CV, cs.AI

发布日期: 2025-11-12

💡 一句话要点

BronchOpt：基于视觉和微调基础模型的支气管镜导航位姿优化

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 支气管镜导航 位姿优化 视觉配准 深度学习 医学影像 合成数据 域泛化

📋 核心要点

现有基于视觉的支气管镜导航方法难以在不同领域和患者之间泛化，导致配准误差。
提出基于视觉的位姿优化框架，通过微调的基础模型实现内窥镜图像与CT图像的直接相似度计算。
构建了公开的合成基准数据集，模型仅在合成数据上训练，即可在真实数据上实现良好的泛化性能。

📝 摘要（中文）

本研究针对支气管镜术中定位难题，即呼吸运动、解剖变异和CT-体表差异导致的术中视图与术前CT配准误差，提出了一个通用的、基于视觉的支气管镜导航框架。该框架利用微调的模态和域不变编码器，直接计算真实内窥镜RGB图像与CT渲染深度图之间的相似性，并通过可微渲染模块迭代优化相机位姿，实现帧间2D-3D配准。此外，为了提高可重复性，我们发布了首个用于支气管镜导航的合成基准数据集。模型仅在合成数据上训练，在基准测试中实现了平均2.65mm的平移误差和0.19rad的旋转误差，证明了其准确性和稳定性。在真实患者数据上的定性结果进一步证实了其强大的跨域泛化能力，无需特定领域的适应即可实现一致的帧间2D-3D对齐。总而言之，该框架通过迭代的视觉优化实现了鲁棒的、域不变的定位，而新的基准为基于视觉的支气管镜导航标准化进展奠定了基础。

🔬 方法详解

问题定义：支气管镜术中，由于呼吸运动、解剖结构差异以及CT扫描与实际体表之间的偏差，导致术中内窥镜图像与术前CT图像之间存在错位，难以实现精准定位。现有基于视觉的方法泛化能力不足，无法有效解决跨患者和跨域的配准问题。

核心思路：利用深度学习模型学习内窥镜图像和CT图像之间的域不变特征表达，从而实现两种模态图像的直接相似度计算。通过可微渲染技术，将位姿优化问题转化为图像相似度最大化问题，并进行迭代优化。

技术框架：该框架主要包含三个模块：1) 微调的模态和域不变编码器，用于提取内窥镜图像和CT渲染深度图的特征；2) 可微渲染模块，用于根据相机位姿将CT图像渲染成深度图；3) 位姿优化模块，通过迭代优化相机位姿，使得渲染的深度图与内窥镜图像的特征相似度最大化。

关键创新：该方法的核心创新在于：1) 提出了一个微调的模态和域不变编码器，能够有效提取内窥镜图像和CT图像的共享特征，从而实现跨模态和跨域的图像配准；2) 构建了首个公开的支气管镜导航合成基准数据集，为该领域的研究提供了标准化的评估平台。

关键设计：编码器采用预训练的视觉Transformer模型，并在合成数据上进行微调，以适应内窥镜图像和CT图像的特征。损失函数采用图像特征的余弦相似度，用于衡量渲染深度图与内窥镜图像之间的相似程度。位姿优化采用Adam优化器，迭代更新相机位姿。

📊 实验亮点

该模型在合成数据集上训练，并在公开的支气管镜导航基准数据集上进行了评估，实现了平均2.65mm的平移误差和0.19rad的旋转误差。在真实患者数据上的定性结果表明，该方法具有良好的跨域泛化能力，无需针对特定领域进行调整。

🎯 应用场景

该研究成果可应用于临床支气管镜导航，辅助医生进行精准定位和手术操作，减少手术风险，提高手术成功率。此外，该方法也可推广到其他医学影像引导手术，如腹腔镜手术、神经外科手术等，具有广阔的应用前景。

📄 摘要（原文）

Accurate intra-operative localization of the bronchoscope tip relative to patient anatomy remains challenging due to respiratory motion, anatomical variability, and CT-to-body divergence that cause deformation and misalignment between intra-operative views and pre-operative CT. Existing vision-based methods often fail to generalize across domains and patients, leading to residual alignment errors. This work establishes a generalizable foundation for bronchoscopy navigation through a robust vision-based framework and a new synthetic benchmark dataset that enables standardized and reproducible evaluation. We propose a vision-based pose optimization framework for frame-wise 2D-3D registration between intra-operative endoscopic views and pre-operative CT anatomy. A fine-tuned modality- and domain-invariant encoder enables direct similarity computation between real endoscopic RGB frames and CT-rendered depth maps, while a differentiable rendering module iteratively refines camera poses through depth consistency. To enhance reproducibility, we introduce the first public synthetic benchmark dataset for bronchoscopy navigation, addressing the lack of paired CT-endoscopy data. Trained exclusively on synthetic data distinct from the benchmark, our model achieves an average translational error of 2.65 mm and a rotational error of 0.19 rad, demonstrating accurate and stable localization. Qualitative results on real patient data further confirm strong cross-domain generalization, achieving consistent frame-wise 2D-3D alignment without domain-specific adaptation. Overall, the proposed framework achieves robust, domain-invariant localization through iterative vision-based optimization, while the new benchmark provides a foundation for standardized progress in vision-based bronchoscopy navigation.

BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册