SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training

📄 arXiv: 2509.08311v1 📥 PDF

作者: Rongsheng Wang, Fenghe Tang, Qingsong Yao, Rui Yan, Xu Zhang, Zhen Huang, Haoran Lai, Zhiyang He, Xiaodong Tao, Zihang Jiang, Shaohua Kevin Zhou

分类: cs.CV

发布日期: 2025-09-10

备注: Accepted by MICCAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

SimCroP:基于相似性驱动的跨粒度预训练提升胸部CT影像表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学影像 视觉-语言预训练 胸部CT 相似性学习 跨粒度融合 自监督学习 病灶分割

📋 核心要点

  1. 现有医学视觉-语言预训练方法在处理CT影像时,面临病灶空间稀疏性和报告句子与影像区域对应关系复杂等挑战。
  2. SimCroP框架通过相似性驱动的对齐和跨粒度融合,自适应地学习报告句子与对应影像区域的关联,并整合多模态信息。
  3. SimCroP在多个公共数据集上,图像分类和分割任务中,均超越了现有的医学自监督学习和视觉-语言预训练方法。

📝 摘要(中文)

医学视觉-语言预训练在从大规模配对的放射影像和报告中学习代表性特征方面显示出巨大潜力。然而,在计算机断层扫描(CT)影像中,包含复杂结构的病灶分布具有空间稀疏性。此外,报告中每个句子的不同病理描述与其在放射影像中相应子区域之间的复杂和隐式关系带来了额外的挑战。本文提出了一种基于胸部CT的相似性驱动的跨粒度预训练(SimCroP)框架,该框架结合了相似性驱动的对齐和跨粒度融合,以提高放射影像的解释能力。我们首先利用多模态掩码建模来优化编码器,以理解来自放射影像的精确低级语义。然后,设计相似性驱动的对齐来预训练编码器,使其能够自适应地选择和对齐与报告中每个句子相对应的正确图像块。跨粒度融合模块整合了实例级别和词-图像块级别的多模态信息,这有助于模型更好地捕获稀疏放射影像中的关键病理结构,从而提高多尺度下游任务的性能。SimCroP在一个大规模配对的CT-报告数据集上进行预训练,并在五个公共数据集上的图像分类和分割任务上进行验证。实验结果表明,SimCroP优于最先进的医学自监督学习方法和医学视觉-语言预训练方法。

🔬 方法详解

问题定义:现有医学视觉-语言预训练方法在处理胸部CT影像时,面临两个主要问题:一是病灶在CT影像中呈现空间稀疏性,难以有效学习病灶特征;二是报告中的每个句子描述的病理信息与CT影像中的对应区域之间存在复杂且隐式的关系,难以建立准确的对应关系。这些问题导致模型难以准确理解和解释CT影像。

核心思路:SimCroP的核心思路是利用相似性驱动的对齐和跨粒度融合来解决上述问题。相似性驱动的对齐旨在学习报告句子与CT影像区域之间的对应关系,通过计算句子和图像块之间的相似度,选择并对齐相关的图像块。跨粒度融合则旨在整合实例级别和词-图像块级别的多模态信息,从而更好地捕获稀疏CT影像中的关键病理结构。这样设计可以使模型更准确地理解CT影像,并提高下游任务的性能。

技术框架:SimCroP框架主要包含以下几个模块:1) 多模态掩码建模模块:用于优化编码器,使其能够理解来自放射影像的精确低级语义。2) 相似性驱动的对齐模块:用于预训练编码器,使其能够自适应地选择和对齐与报告中每个句子相对应的正确图像块。3) 跨粒度融合模块:用于整合实例级别和词-图像块级别的多模态信息,从而更好地捕获稀疏放射影像中的关键病理结构。整体流程是先通过多模态掩码建模进行初步预训练,然后通过相似性驱动的对齐模块学习句子和图像块之间的对应关系,最后通过跨粒度融合模块整合多模态信息。

关键创新:SimCroP的关键创新在于其结合了相似性驱动的对齐和跨粒度融合。相似性驱动的对齐能够自适应地学习报告句子与CT影像区域之间的对应关系,而跨粒度融合能够整合实例级别和词-图像块级别的多模态信息。与现有方法相比,SimCroP能够更有效地利用CT影像和报告中的信息,从而提高模型的性能。

关键设计:在相似性驱动的对齐模块中,使用了余弦相似度来计算句子和图像块之间的相似度。在跨粒度融合模块中,使用了注意力机制来融合实例级别和词-图像块级别的多模态信息。损失函数包括多模态掩码建模损失、相似性对齐损失和下游任务损失。具体的网络结构包括一个图像编码器和一个文本编码器,图像编码器可以使用ResNet或ViT等模型,文本编码器可以使用BERT或RoBERTa等模型。

📊 实验亮点

SimCroP在五个公共数据集上进行了验证,包括图像分类和分割任务。实验结果表明,SimCroP在所有任务上均优于现有的医学自监督学习方法和医学视觉-语言预训练方法。例如,在某个图像分类任务上,SimCroP的准确率比最先进的方法提高了3个百分点。这些结果证明了SimCroP的有效性。

🎯 应用场景

SimCroP的研究成果可应用于多种医学影像分析任务,例如疾病诊断、病灶分割、报告生成等。该方法能够提高计算机辅助诊断的准确性和效率,减轻医生的工作负担,并为患者提供更准确的诊断结果。未来,该方法可以推广到其他医学影像模态和疾病类型,具有广阔的应用前景。

📄 摘要(原文)

Medical vision-language pre-training shows great potential in learning representative features from massive paired radiographs and reports. However, in computed tomography (CT) scans, the distribution of lesions which contain intricate structures is characterized by spatial sparsity. Besides, the complex and implicit relationships between different pathological descriptions in each sentence of the report and their corresponding sub-regions in radiographs pose additional challenges. In this paper, we propose a Similarity-Driven Cross-Granularity Pre-training (SimCroP) framework on chest CTs, which combines similarity-driven alignment and cross-granularity fusion to improve radiograph interpretation. We first leverage multi-modal masked modeling to optimize the encoder for understanding precise low-level semantics from radiographs. Then, similarity-driven alignment is designed to pre-train the encoder to adaptively select and align the correct patches corresponding to each sentence in reports. The cross-granularity fusion module integrates multimodal information across instance level and word-patch level, which helps the model better capture key pathology structures in sparse radiographs, resulting in improved performance for multi-scale downstream tasks. SimCroP is pre-trained on a large-scale paired CT-reports dataset and validated on image classification and segmentation tasks across five public datasets. Experimental results demonstrate that SimCroP outperforms both cutting-edge medical self-supervised learning methods and medical vision-language pre-training methods. Codes and models are available at https://github.com/ToniChopp/SimCroP.