GreenRFM: Toward a resource-efficient radiology foundation model

📄 arXiv: 2603.06467v1 📥 PDF

作者: Yingtai Li, Shuai Ming, Mingyue Zhao, Haoran Lai, Rongsheng Wang, Rui Zhou, Rundong Wang, Yujia Li, Wei Wei, Shaohua Kevin Zhou

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

提出GreenRFM,一种资源高效的放射学基础模型,在性能上超越现有模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 放射学基础模型 资源高效 预训练 MUST监督 医学图像分析

📋 核心要点

  1. 现有放射学基础模型依赖暴力缩放,计算成本高昂且泛化能力不足。
  2. GreenRFM通过MUST监督设计,在保证性能的同时,显著降低了计算资源需求。
  3. 实验表明,GreenRFM在多种数据集和模态上超越现有模型,且资源消耗极低。

📝 摘要(中文)

放射学基础模型(RFM)的发展受到对暴力缩放的依赖的阻碍。现有方法通常直接转换自然图像的方法,优先考虑规模而非精度,从而导致临床实践中脆弱且昂贵的模型。为了解决这个问题,我们提出了一个资源高效的预训练框架GreenRFM,它实现了最先进的性能。我们的框架确保了跨不同患者群体和成像协议的稳健泛化,在超过复杂、参数繁重的模型的同时,降低了几个数量级的计算需求。这些能力源于有原则的监督设计,旨在通过更多提炼、无处不在、语义强制和任务对齐(MUST)的监督来最大限度地利用监督信号,而不是简单地堆积训练数据的数量。我们提供两种GreenRFM配置:(i)一个高性能模型,在24小时内使用单个24GB GPU建立一个新的最先进水平,以及(ii)一个轻量级模型,在4小时内以6GB VRAM匹配现有基准。我们使用来自四个机构和两种模态的超过20万张图像进行了广泛的实验。GreenRFM在胸部和腹部CT数据集上实现了卓越的性能,无论公共或私有基准,都超过了一系列基线模型。此外,内部肌肉骨骼MRI图像的结果表明,相同的监督原则可以在不同的模态之间转移。我们的性能和效率挑战了“规模就是一切”的信条,并为临床医生甚至在笔记本电脑上公平地开发最先进的RFM提供了可能。

🔬 方法详解

问题定义:现有放射学基础模型(RFM)的训练严重依赖大规模数据集和计算资源,导致模型训练成本高昂,且在不同患者群体和成像协议下的泛化能力较差。现有方法通常直接借鉴自然图像处理的方法,忽略了医学图像的特殊性,使得模型对噪声和伪影更加敏感。

核心思路:GreenRFM的核心思路是通过更有效的监督信号利用来提升模型性能,而非单纯依赖数据规模。通过精心设计的监督策略,即MUST(More distilled, Ubiquitous, Semantic-enforcing, and Task-aligning)监督,模型能够更好地学习医学图像的内在特征,从而提高泛化能力和降低计算成本。

技术框架:GreenRFM的整体框架包括预训练阶段和下游任务微调阶段。在预训练阶段,模型使用MUST监督策略进行训练,学习医学图像的通用表示。在下游任务微调阶段,模型使用特定任务的数据进行微调,以适应不同的临床应用。框架的关键在于MUST监督策略的设计,它指导模型学习更具信息量和语义意义的特征。

关键创新:GreenRFM最重要的创新在于MUST监督策略。与传统的监督方法相比,MUST监督策略更加注重监督信号的质量而非数量。它通过提炼关键信息、利用无处不在的监督信号、强制语义一致性和对齐任务目标,使得模型能够更有效地学习医学图像的内在特征。

关键设计:MUST监督策略包含四个关键要素:(1) More distilled:通过知识蒸馏等方法,从专家标注或大型模型中提取关键信息,作为监督信号。(2) Ubiquitous:利用图像中存在的各种自然监督信号,例如图像的统计特征、解剖结构等。(3) Semantic-enforcing:通过引入语义约束,例如解剖结构的先验知识,来提高模型的语义理解能力。(4) Task-aligning:根据下游任务的特点,设计与任务相关的监督信号,以提高模型的任务适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GreenRFM在胸部和腹部CT数据集上取得了优异的性能,超越了现有的基线模型。例如,使用单个24GB GPU在24小时内训练的GreenRFM模型,在多个公开和私有数据集上均达到了state-of-the-art的水平。轻量级版本仅需6GB VRAM和4小时即可达到现有基准的性能。

🎯 应用场景

GreenRFM具有广泛的应用前景,可用于辅助诊断、疾病筛查、治疗方案制定等多个临床场景。其资源高效的特性使得即使在计算资源有限的环境下,也能部署高性能的放射学模型,从而促进医疗资源的公平分配和普及。未来,GreenRFM有望成为构建智能化医疗系统的关键组成部分。

📄 摘要(原文)

The development of radiology foundation models (RFMs) is hindered by a reliance on brute-force scaling. Existing approaches often directly translate methods for natural images, which prioritize scale over precision and hence lead to brittle and expensive models in clinical practice. To address this, we present a resource-efficient pre-training framework, GreenRFM, that achieves state-of-the-art performance. Our framework ensures robust generalization across diverse patient populations and imaging protocols, reducing computational requirements by orders of magnitude while surpassing complex, parameter-heavy models. These capabilities stem from principled supervision design that aims to maximally utilize supervisory signals via More distilled, Ubiquitous, Semantic-enforcing, and Task-aligning (MUST) supervision, rather than simply piling up the quantity of training data. We offer two GreenRFM configurations: (i) a performant model that establishes a new state-of-the-art using a single 24GB GPU within 24 hours, and (ii) a lightweight model that matches existing benchmarks with 6GB VRAM in 4 hours. We conduct extensive experiments using over 200,000 images from four institutions and of two modalities. GreenRFMs achieve superior performances on chest and abdominal CT datasets, regardless of public or private benchmark, surpassing a range of baseline models. In addition, the results on internal musculoskeletal MRI images show that the same supervision principles transfer between different modalities. Our performance and efficiency challenge the ``scale is all you need'' dogma and democratize the equitable development of state-of-the-art RFMs for clinicians even on a laptop.