ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

📄 arXiv: 2603.03961v1 📥 PDF

作者: Yipei Wang, Yinsong Xu, Weixi Yi, Shaheer Ullah Saeed, Natasha Thorley, Alexander Ng, Yukun Zhou, Wen Yan, Dean Barratt, Shonit Punwani, Veeru Kasivisvanathan, Mark Emberton, Daniel C. Alexander, Yipeng Hu

分类: cs.CV

发布日期: 2026-03-04


💡 一句话要点

ProFound:用于多任务前列腺成像的中等规模视觉基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 前列腺癌 多参数MRI 视觉基础模型 自监督学习 医学图像分析

📋 核心要点

  1. 前列腺癌的诊断和治疗越来越依赖多参数MRI,但自动化这些任务需要专家解读,难以扩展到现代深度学习。
  2. ProFound通过在大型多机构数据集上使用自监督学习进行预训练,从而学习前列腺mpMRI的通用表示。
  3. 实验表明,ProFound在多种下游任务中表现优异,超越或匹敌现有方法,显示了其作为前列腺成像基础模型的潜力。

📝 摘要(中文)

本文提出了ProFound,一个针对体积前列腺多参数MRI的领域专用视觉基础模型。ProFound利用多种自监督方法,在一个包含5000名患者、超过22000个独特3D MRI体积(超过180万张2D图像切片)的多机构数据集上进行预训练。我们在超过3000名独立患者的11项下游临床任务上对ProFound进行了系统评估,包括前列腺癌检测、Gleason分级、病灶定位、腺体体积估计以及区域和周围结构分割。实验结果表明,经过微调的ProFound始终优于或与在相同数据上训练/微调的现有医学视觉基础模型和最先进的专用模型相比具有竞争力。

🔬 方法详解

问题定义:前列腺癌多参数MRI的自动化分析面临挑战,现有方法依赖于大量特定任务的标注数据,泛化能力有限。专家解读的成本高昂,难以支持大规模深度学习模型的训练。因此,需要一种能够利用大量未标注数据,并在多个下游任务中表现良好的通用模型。

核心思路:本文的核心思路是利用自监督学习,在大规模未标注前列腺MRI数据上预训练一个视觉基础模型ProFound。通过学习通用的图像表示,ProFound可以有效地迁移到各种下游任务,减少对特定任务标注数据的依赖。

技术框架:ProFound的整体框架包括预训练和微调两个阶段。在预训练阶段,使用多种自监督学习方法(具体方法未知)在大规模前列腺MRI数据集上训练模型。在微调阶段,将预训练好的ProFound模型迁移到不同的下游任务,并使用少量标注数据进行微调。

关键创新:ProFound的关键创新在于其领域专用性以及大规模自监督预训练。与通用视觉基础模型相比,ProFound针对前列腺MRI进行了优化,能够更好地捕捉前列腺的解剖结构和病理特征。大规模自监督预训练使得ProFound能够学习到更鲁棒和泛化的图像表示。

关键设计:论文中没有明确说明具体的网络结构和自监督学习方法。但是,可以推测可能使用了类似MAE (Masked Autoencoders) 或 SimCLR (Simple Framework for Contrastive Learning of Visual Representations) 的方法。损失函数的设计可能包括重建损失、对比损失等。具体的参数设置未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ProFound在11项下游任务中进行了评估,包括前列腺癌检测、Gleason分级、病灶定位、腺体体积估计和结构分割。实验结果表明,经过微调的ProFound始终优于或与最先进的专用模型以及现有的医学视觉基础模型相比具有竞争力。具体的性能提升幅度未知,但结果表明ProFound具有很强的泛化能力。

🎯 应用场景

ProFound具有广泛的应用前景,可以用于辅助前列腺癌的诊断、分级、定位和治疗。它可以帮助医生更准确地识别病灶、评估肿瘤的侵袭性,并制定个性化的治疗方案。此外,ProFound还可以用于前列腺MRI图像的自动分割和体积测量,提高临床工作效率。

📄 摘要(原文)

Many diagnostic and therapeutic clinical tasks for prostate cancer increasingly rely on multi-parametric MRI. Automating these tasks is challenging because they necessitate expert interpretations, which are difficult to scale to capitalise on modern deep learning. Although modern automated systems achieve expert-level performance in isolated tasks, their general clinical utility remains limited by the requirement of large task-specific labelled datasets. In this paper, we present ProFound, a domain-specialised vision foundation model for volumetric prostate mpMRI. ProFound is pre-trained using several variants of self-supervised approaches on a diverse, multi-institutional collection of 5,000 patients, with a total of over 22,000 unique 3D MRI volumes (over 1,800,000 2D image slices). We conducted a systematic evaluation of ProFound across a broad spectrum of $11$ downstream clinical tasks on over 3,000 independent patients, including prostate cancer detection, Gleason grading, lesion localisation, gland volume estimation, zonal and surrounding structure segmentation. Experimental results demonstrate that finetuned ProFound consistently outperforms or remains competitive with state-of-the-art specialised models and existing medical vision foundation models trained/finetuned on the same data.