Mind the Gap: Continuous Magnification Sampling for Pathology Foundation Models

📄 arXiv: 2601.02198v1 📥 PDF

作者: Alexander Möllers, Julius Hense, Florian Schulz, Timo Milbich, Maximilian Alber, Lukas Ruff

分类: cs.CV, cs.LG

发布日期: 2026-01-05


💡 一句话要点

提出连续放大倍率采样,提升病理学Foundation Model在各放大倍率下的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation Model 放大倍率采样 连续采样 多源域适应 组织病理学 AI辅助诊断 医学图像分析

📋 核心要点

  1. 现有病理学Foundation Model在不同放大倍率下的性能表现不明确,离散放大倍率采样策略存在缺陷。
  2. 提出连续放大倍率采样方法,旨在消除放大倍率覆盖中的间隙,并优化跨放大倍率尺度的表示质量。
  3. 实验表明,连续采样显著优于离散采样,在中间放大倍率下平衡分类准确率提升高达4个百分点。

📝 摘要(中文)

在组织病理学中,病理学家需要检查低倍率下的组织结构和高倍率下的精细形态。然而,病理学Foundation Model在不同放大倍率下的性能以及训练期间放大倍率采样的影响仍然知之甚少。本文将放大倍率采样建模为一个多源域适应问题,并提出了一个简单的理论框架,揭示了采样策略之间的系统性权衡。研究表明,广泛使用的离散均匀放大倍率采样(0.25、0.5、1.0、2.0 mpp)会导致中间放大倍率的性能下降。因此,本文引入了连续放大倍率采样,消除了放大倍率覆盖中的间隙,同时保持了标准尺度下的性能。此外,还推导了优化跨放大倍率尺度表示质量的采样分布。为了评估这些策略,引入了两个新的基准(TCGA-MS、BRACS-MS)以及相应的指标。实验结果表明,连续采样在中间放大倍率下显著优于离散采样,平衡分类准确率提高了高达4个百分点,并且优化的分布可以进一步提高性能。最后,评估了当前的组织病理学Foundation Model,发现放大倍率是模型性能变化的主要驱动因素。这项工作为未来在各种放大倍率下可靠执行的病理学Foundation Model铺平了道路。

🔬 方法详解

问题定义:现有的病理学Foundation Model训练通常采用离散的放大倍率进行采样,例如0.25x、0.5x、1.0x和2.0x。这种离散采样方式导致模型在中间放大倍率下的性能下降,因为模型缺乏在这些倍率下的训练数据。此外,不同放大倍率之间的性能差异也未被充分研究,阻碍了病理学Foundation Model的全面发展。

核心思路:本文的核心思路是采用连续的放大倍率采样,从而消除离散采样造成的放大倍率覆盖间隙。通过连续采样,模型可以接触到更广泛的放大倍率范围,从而提高在所有放大倍率下的性能。此外,本文还提出了优化采样分布的方法,以进一步提高表示质量。

技术框架:本文将放大倍率采样建模为一个多源域适应问题。整体框架包括以下几个主要步骤:1)构建包含不同放大倍率的病理图像数据集;2)设计连续放大倍率采样策略,包括均匀采样和优化采样分布;3)训练病理学Foundation Model,并使用新的基准数据集(TCGA-MS、BRACS-MS)进行评估;4)分析模型在不同放大倍率下的性能表现,并与离散采样方法进行比较。

关键创新:本文最重要的技术创新点在于提出了连续放大倍率采样方法,并推导了优化采样分布。与传统的离散采样方法相比,连续采样可以更有效地利用数据,提高模型在所有放大倍率下的泛化能力。此外,本文还引入了两个新的基准数据集,为评估病理学Foundation Model在不同放大倍率下的性能提供了标准。

关键设计:在连续放大倍率采样中,可以采用均匀采样或优化采样分布。优化采样分布的目标是最大化模型在所有放大倍率下的表示质量。具体而言,可以通过最小化一个损失函数来实现,该损失函数考虑了不同放大倍率下的性能表现。损失函数的具体形式和优化算法的选择会影响最终的性能。此外,本文还设计了新的评估指标,以更准确地衡量模型在不同放大倍率下的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,连续采样在中间放大倍率下显著优于离散采样,平衡分类准确率提高了高达4个百分点。在TCGA-MS和BRACS-MS数据集上,连续采样方法均取得了更好的性能。此外,优化的采样分布可以进一步提高性能,表明了采样策略对病理学Foundation Model性能的重要性。

🎯 应用场景

该研究成果可应用于提升病理学AI辅助诊断系统的性能,尤其是在需要处理不同放大倍率图像的场景下。通过提高模型在各种放大倍率下的可靠性,可以帮助病理学家更准确地进行诊断,减少误诊率,并提高工作效率。此外,该方法还可以推广到其他医学图像分析领域。

📄 摘要(原文)

In histopathology, pathologists examine both tissue architecture at low magnification and fine-grained morphology at high magnification. Yet, the performance of pathology foundation models across magnifications and the effect of magnification sampling during training remain poorly understood. We model magnification sampling as a multi-source domain adaptation problem and develop a simple theoretical framework that reveals systematic trade-offs between sampling strategies. We show that the widely used discrete uniform sampling of magnifications (0.25, 0.5, 1.0, 2.0 mpp) leads to degradation at intermediate magnifications. We introduce continuous magnification sampling, which removes gaps in magnification coverage while preserving performance at standard scales. Further, we derive sampling distributions that optimize representation quality across magnification scales. To evaluate these strategies, we introduce two new benchmarks (TCGA-MS, BRACS-MS) with appropriate metrics. Our experiments show that continuous sampling substantially improves over discrete sampling at intermediate magnifications, with gains of up to 4 percentage points in balanced classification accuracy, and that optimized distributions can further improve performance. Finally, we evaluate current histopathology foundation models, finding that magnification is a primary driver of performance variation across models. Our work paves the way towards future pathology foundation models that perform reliably across magnifications.