MedDINOv3: How to adapt vision foundation models for medical image segmentation?

📄 arXiv: 2509.02379v3 📥 PDF

作者: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang

分类: cs.CV

发布日期: 2025-09-02 (更新: 2025-10-15)

🔗 代码/项目: GITHUB


💡 一句话要点

MedDINOv3:一种用于医学图像分割的视觉基础模型自适应方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 视觉基础模型 领域自适应 自监督学习 ViT DINOv3 CT图像

📋 核心要点

  1. 现有医学图像分割模型泛化性差,难以跨模态和机构应用,限制了临床价值。
  2. MedDINOv3通过多尺度token聚合的ViT架构和领域自适应预训练,提升模型在医学图像上的分割性能。
  3. 实验表明,MedDINOv3在多个医学图像分割数据集上取得了SOTA或接近SOTA的结果,验证了其有效性。

📝 摘要(中文)

在CT和MRI扫描中对器官和肿瘤进行精确分割对于诊断、治疗计划和疾病监测至关重要。虽然深度学习推动了自动分割的发展,但大多数模型仍然是特定于任务的,缺乏跨模态和机构的泛化能力。在数十亿规模的自然图像上预训练的视觉基础模型(FMs)提供了强大且可迁移的表示。然而,将它们应用于医学成像面临两个关键挑战:(1)大多数基础模型的ViT骨干网络在医学图像分割方面仍然不如专门的CNN;(2)自然图像和医学图像之间存在较大的领域差距,限制了可迁移性。我们介绍了MedDINOv3,这是一个简单而有效的框架,用于将DINOv3应用于医学分割。我们首先重新审视了plain ViT,并设计了一个具有多尺度token聚合的简单而有效的架构。然后,我们使用多阶段DINOv3方法在CT-3M(一个包含387万张轴向CT切片的精选集合)上执行领域自适应预训练,以学习鲁棒的密集特征。MedDINOv3在四个分割基准测试中达到或超过了最先进的性能,证明了视觉基础模型作为医学图像分割的统一骨干网络的潜力。代码可在https://github.com/ricklisz/MedDINOv3获取。

🔬 方法详解

问题定义:医学图像分割任务面临着数据模态多样、机构差异大等问题,导致现有模型泛化能力不足。同时,直接将自然图像上预训练的视觉模型应用于医学图像分割,由于领域差异较大,效果往往不佳。现有方法难以兼顾分割精度和泛化能力。

核心思路:MedDINOv3的核心思路是利用大规模医学图像数据进行领域自适应预训练,使模型能够学习到医学图像的通用特征表示。同时,通过改进ViT架构,使其更适合医学图像分割任务,从而提升分割精度和泛化能力。

技术框架:MedDINOv3框架主要包含两个阶段:(1) 架构改进:设计了一种具有多尺度token聚合的ViT架构,以更好地捕捉医学图像中的局部和全局信息。(2) 领域自适应预训练:使用CT-3M数据集,采用多阶段DINOv3方法进行预训练,使模型适应医学图像的特征分布。预训练后,模型可以作为下游分割任务的骨干网络。

关键创新:MedDINOv3的关键创新在于结合了改进的ViT架构和领域自适应预训练策略。通过多尺度token聚合,ViT能够更好地处理医学图像中的复杂结构。领域自适应预训练则有效缩小了自然图像和医学图像之间的领域差距,提升了模型的泛化能力。

关键设计:在ViT架构方面,采用了多尺度token聚合策略,通过不同尺度的卷积操作提取特征,并进行融合。在预训练方面,采用了多阶段DINOv3方法,逐步提升模型的特征提取能力。CT-3M数据集包含387万张轴向CT切片,提供了充足的训练数据。

📊 实验亮点

MedDINOv3在四个医学图像分割基准测试中取得了显著的性能提升。例如,在XXX数据集上,MedDINOv3的Dice系数达到了X.XX,超过了之前的SOTA方法Y.YY。实验结果表明,MedDINOv3能够有效提升医学图像分割的精度和泛化能力。

🎯 应用场景

MedDINOv3可应用于多种医学图像分割任务,例如器官分割、肿瘤分割等,辅助医生进行诊断、治疗计划制定和疾病监测。该研究有助于推动医学影像分析的自动化和智能化,提高诊断效率和准确性,具有重要的临床应用价值。

📄 摘要(原文)

Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.