ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders
作者: Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng, Katie R. Jobson, Manuel Taso, Christopher A. Brown, David A. Wolk, Corey T. McMillan, Ilya M. Nashrallah, Paul A. Yushkevich, Ze Wang, John A. Detre, Sudipto Dolui
分类: eess.IV, cs.CV, physics.med-ph
发布日期: 2026-03-05
💡 一句话要点
提出ICHOR,一种基于自监督掩码自编码器的ASL CBF图鲁棒表征学习方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: ASL CBF 自监督学习 掩码自编码器 表征学习 Vision Transformer
📋 核心要点
- 现有ASL CBF图像分析方法受限于图像质量差异大、跨站点差异显著以及标注数据匮乏等问题。
- ICHOR利用3D掩码自编码器进行自监督预训练,学习可迁移的ASL CBF图像表征,提升模型泛化能力。
- ICHOR在多个下游任务上超越了现有自监督方法,证明了其有效性,并公开预训练权重和代码。
📝 摘要(中文)
动脉自旋标记(ASL)灌注MRI可以直接量化区域脑血流量(CBF),无需外源性造影剂,实现无创测量,可以重复进行,不受造影剂注射的限制。ASL越来越多地应用于研究和临床MRI方案中。在结构成像成功的基础上,最近的研究工作已经实施了基于深度学习的方法,以提高图像质量,实现自动质量控制,并利用ASL衍生的CBF获得稳健的定量和预测生物标志物。然而,由于图像质量的可变性、站点间、供应商和协议的显著差异,以及训练可在不同队列中推广的模型所需的标记数据集的有限性,进展受到限制。为了应对这些挑战,我们引入了ICHOR,这是一种用于ASL CBF图的自监督预训练方法,它使用3D掩码自编码器学习可转移的表征。ICHOR通过掩码图像建模进行预训练,使用Vision Transformer作为骨干网络,可以用作下游ASL任务的通用编码器。为了进行预训练,我们整理了迄今为止最大的ASL数据集之一,包含来自14项研究的11405个ASL CBF扫描,这些研究跨越多个站点和采集协议。我们在三个下游诊断分类任务和一个ASL CBF图质量预测回归任务上评估了预训练的ICHOR编码器。在所有评估中,ICHOR优于适应于ASL的现有神经影像自监督预训练方法。预训练的权重和代码将公开提供。
🔬 方法详解
问题定义:论文旨在解决ASL CBF(动脉自旋标记脑血流)图像分析中,由于图像质量差异大、跨站点差异显著以及标注数据匮乏等问题,导致模型泛化能力差的难题。现有方法难以有效利用大规模无标注ASL CBF数据,无法学习到鲁棒且具有泛化能力的图像表征。
核心思路:论文的核心思路是利用自监督学习,特别是掩码自编码器(Masked Autoencoder, MAE)进行预训练。通过在大规模无标注ASL CBF数据集上进行掩码图像建模,迫使模型学习图像的内在结构和语义信息,从而获得更鲁棒、更具泛化能力的图像表征。这种预训练的表征可以作为下游任务的初始化,提升模型在有限标注数据下的性能。
技术框架:ICHOR的整体框架包括两个主要阶段:预训练阶段和下游任务微调阶段。在预训练阶段,使用Vision Transformer (ViT) 作为骨干网络,对输入的ASL CBF图像进行随机掩码,然后利用编码器-解码器结构进行图像重建。编码器提取图像的潜在表征,解码器则利用这些表征重建被掩码的部分。在下游任务微调阶段,将预训练的编码器作为特征提取器,连接下游任务特定的分类器或回归器,并使用少量标注数据进行微调。
关键创新:ICHOR的关键创新在于将掩码自编码器成功应用于ASL CBF图像的表征学习。与传统的监督学习方法相比,ICHOR能够有效利用大规模无标注数据,学习到更鲁棒的图像表征。与现有的神经影像自监督预训练方法相比,ICHOR针对ASL CBF图像的特点进行了优化,例如使用了3D掩码策略,更好地捕捉了脑血流的空间信息。
关键设计:ICHOR的关键设计包括:1) 使用Vision Transformer作为骨干网络,能够有效捕捉图像的全局信息;2) 采用高比例的随机掩码策略(例如75%),迫使模型学习图像的内在结构;3) 使用均方误差(MSE)作为重建损失函数,衡量重建图像与原始图像之间的差异;4) 构建了包含11405个ASL CBF扫描的大规模数据集,保证了预训练的有效性。
🖼️ 关键图片
📊 实验亮点
ICHOR在三个下游诊断分类任务和一个ASL CBF图质量预测回归任务上进行了评估,结果表明,ICHOR在所有评估中均优于现有的神经影像自监督预训练方法。具体性能数据未在摘要中给出,但强调了ICHOR在不同任务上的普遍优越性,证明了其学习到的表征具有良好的泛化能力。
🎯 应用场景
ICHOR在神经影像分析领域具有广泛的应用前景,可用于辅助诊断阿尔茨海默病、脑血管疾病等神经系统疾病。通过学习鲁棒的ASL CBF图像表征,ICHOR可以提高疾病诊断的准确性和效率,并为个性化治疗方案的制定提供依据。未来,ICHOR还可以扩展到其他医学影像模态,例如PET、CT等,构建更通用的医学影像分析平台。
📄 摘要(原文)
Arterial spin labeling (ASL) perfusion MRI allows direct quantification of regional cerebral blood flow (CBF) without exogenous contrast, enabling noninvasive measurements that can be repeated without constraints imposed by contrast injection. ASL is increasingly acquired in research studies and clinical MRI protocols. Building on successes in structural imaging, recent efforts have implemented deep learning based methods to improve image quality, enable automated quality control, and derive robust quantitative and predictive biomarkers with ASL derived CBF. However, progress has been limited by variable image quality, substantial inter-site, vendor and protocol differences, and limited availability of labeled datasets needed to train models that generalize across cohorts. To address these challenges, we introduce ICHOR, a self supervised pre-training approach for ASL CBF maps that learns transferable representations using 3D masked autoencoders. ICHOR is pretrained via masked image modeling using a Vision Transformer backbone and can be used as a general-purpose encoder for downstream ASL tasks. For pre-training, we curated one of the largest ASL datasets to date, comprising 11,405 ASL CBF scans from 14 studies spanning multiple sites and acquisition protocols. We evaluated the pre-trained ICHOR encoder on three downstream diagnostic classification tasks and one ASL CBF map quality prediction regression task. Across all evaluations, ICHOR outperformed existing neuroimaging self-supervised pre-training methods adapted to ASL. Pre-trained weights and code will be made publicly available.