How many samples to label for an application given a foundation model? Chest X-ray classification study
作者: Nikolay Nechaev, Evgeniia Przhezdzetskaia, Viktor Gombolevskiy, Dmitry Umerenkov, Dmitry Dylov
分类: cs.CV
发布日期: 2025-10-13 (更新: 2025-10-22)
备注: 8 pages, 5 figures
💡 一句话要点
研究胸部X光片分类任务中,如何利用预训练模型减少标注样本需求
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胸部X光片分类 预训练模型 标注样本量 幂律拟合 学习曲线预测
📋 核心要点
- 胸部X光片分类依赖大量标注数据,成本高昂,现有方法难以在低标注成本下保证诊断精度。
- 利用预训练模型,通过幂律拟合预测达到目标性能所需的最小标注样本量,降低标注成本。
- 实验表明,XrayCLIP和XraySigLIP在少量标注样本下优于ResNet-50,且少量样本的学习曲线可预测最终性能。
📝 摘要(中文)
胸部X光片分类至关重要,但通常需要大量标注数据以保证诊断准确性,这导致资源消耗巨大。预训练模型可以缓解对大量标注数据的依赖,但究竟需要多少标注样本仍不清楚。本文系统地评估了使用幂律拟合来预测达到特定ROC-AUC阈值所需的训练样本量。通过测试多种病理和预训练模型,发现XrayCLIP和XraySigLIP仅需远少于ResNet-50基线的标注样本即可实现强大的性能。重要的是,仅使用50个标注样本的学习曲线斜率即可准确预测最终性能平台。研究结果使从业者能够通过仅标注目标性能所需的必要样本来最大限度地降低标注成本。
🔬 方法详解
问题定义:论文旨在解决胸部X光片分类任务中,如何确定使用预训练模型进行微调所需的最小标注样本量的问题。现有方法通常需要大量的标注数据才能达到理想的性能,这使得标注成本非常高昂。因此,如何在保证模型性能的前提下,尽可能减少标注工作量是一个重要的研究问题。
核心思路:论文的核心思路是利用幂律拟合来建模模型性能(ROC-AUC)与训练样本数量之间的关系。通过少量标注样本(例如50个)构建学习曲线,并拟合幂律曲线,从而预测达到特定性能阈值所需的样本数量。这种方法可以帮助从业者在标注数据之前,预估标注成本和预期收益,从而做出更明智的决策。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择预训练模型(如XrayCLIP、XraySigLIP和ResNet-50);2) 使用不同数量的标注样本对预训练模型进行微调;3) 评估模型在验证集上的性能(ROC-AUC);4) 使用幂律函数拟合学习曲线,预测达到特定ROC-AUC阈值所需的样本数量;5) 对比不同预训练模型在不同病理下的性能和样本需求。
关键创新:论文的关键创新在于提出了一种基于幂律拟合的学习曲线预测方法,用于估计预训练模型在胸部X光片分类任务中所需的最小标注样本量。与传统的盲目标注方法相比,该方法可以显著降低标注成本,并帮助从业者更好地规划标注策略。此外,论文还发现,仅使用少量标注样本(例如50个)即可准确预测最终性能平台,这进一步降低了前期探索的成本。
关键设计:论文的关键设计包括:1) 选择了XrayCLIP和XraySigLIP等专门针对X光片设计的预训练模型,以及ResNet-50作为基线模型;2) 使用ROC-AUC作为模型性能的评估指标;3) 使用幂律函数(ROC-AUC = a * N^b + c,其中N是样本数量,a、b和c是拟合参数)来拟合学习曲线;4) 针对多种胸部X光片病理进行了实验,以验证方法的泛化能力。
📊 实验亮点
实验结果表明,XrayCLIP和XraySigLIP在少量标注样本下即可达到优于ResNet-50的性能。例如,在某些病理下,XrayCLIP仅需少量标注样本即可达到ResNet-50需要大量标注样本才能达到的ROC-AUC。更重要的是,仅使用50个标注样本的学习曲线斜率即可准确预测最终性能平台,这为实际应用提供了重要的指导意义。
🎯 应用场景
该研究成果可广泛应用于医疗影像分析领域,尤其是在胸部X光片疾病诊断方面。通过减少标注数据需求,可以降低医疗机构的运营成本,加速AI辅助诊断系统的开发和部署。此外,该方法还可以推广到其他医学影像模态和疾病类型,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Chest X-ray classification is vital yet resource-intensive, typically demanding extensive annotated data for accurate diagnosis. Foundation models mitigate this reliance, but how many labeled samples are required remains unclear. We systematically evaluate the use of power-law fits to predict the training size necessary for specific ROC-AUC thresholds. Testing multiple pathologies and foundation models, we find XrayCLIP and XraySigLIP achieve strong performance with significantly fewer labeled examples than a ResNet-50 baseline. Importantly, learning curve slopes from just 50 labeled cases accurately forecast final performance plateaus. Our results enable practitioners to minimize annotation costs by labeling only the essential samples for targeted performance.