MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

📄 arXiv: 2603.06378v1 📥 PDF

作者: Dongqing Xie, Yonghuang Wu

分类: cs.CV

发布日期: 2026-03-06

备注: 15 pages, 6 figures, 6 tables


💡 一句话要点

提出MoEMambaMIL,用于WSI分析的结构感知选择性状态空间建模。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 全切片图像分析 多示例学习 状态空间模型 混合专家 病理诊断

📋 核心要点

  1. 现有MIL方法难以捕捉WSI中全局组织和局部细胞模式间的结构化依赖关系,限制了分析性能。
  2. MoEMambaMIL通过区域嵌套选择性扫描和混合专家建模,实现结构感知的WSI分析。
  3. 实验结果表明,MoEMambaMIL在9个下游任务中均取得了最佳性能,验证了其有效性。

📝 摘要(中文)

全切片图像(WSI)分析极具挑战性,因为切片具有千兆像素级尺寸和固有的分层多分辨率结构。现有的多示例学习(MIL)方法通常将WSI建模为无序的patch集合,这限制了它们捕获全局组织结构和局部细胞模式之间结构化依赖关系的能力。虽然最近的状态空间模型(SSM)能够有效地建模长序列,但如何构建WSI tokens以充分利用其空间层次结构仍然是一个开放的问题。我们提出了MoEMambaMIL,一个用于WSI分析的结构感知SSM框架,它集成了区域嵌套的选择性扫描和混合专家(MoE)建模。利用多分辨率预处理,MoEMambaMIL将patch tokens组织成区域感知的序列,从而保持跨分辨率的空间包含关系。在此结构化序列的基础上,我们通过静态的、分辨率特定的专家和具有学习路由的动态稀疏专家的组合,解耦了分辨率感知的编码和区域自适应的上下文建模。这种设计能够实现高效的长序列建模,同时促进专家在异构诊断模式中的专业化。实验表明,MoEMambaMIL在9个下游任务中取得了最佳性能。

🔬 方法详解

问题定义:全切片图像(WSI)分析面临着图像尺寸巨大和内在多分辨率层级结构的挑战。现有的多示例学习(MIL)方法通常将WSI视为无序的图像块集合,忽略了全局组织结构和局部细胞模式之间的空间依赖关系,导致无法充分利用WSI的结构信息。

核心思路:MoEMambaMIL的核心在于利用状态空间模型(SSM)对WSI进行结构感知的建模。通过将WSI图像块组织成具有空间层次结构的序列,并结合混合专家(MoE)机制,实现对不同分辨率和区域的自适应建模,从而更有效地捕捉WSI中的复杂模式。

技术框架:MoEMambaMIL框架主要包含以下几个阶段:1) 多分辨率预处理:将WSI图像进行多分辨率切片,提取不同分辨率下的图像块。2) 区域感知序列构建:将图像块按照其在WSI中的空间位置关系,构建成区域感知的序列,保留空间包含关系。3) 分辨率感知编码:使用静态的、分辨率特定的专家网络对不同分辨率的图像块进行编码。4) 区域自适应上下文建模:使用动态稀疏专家网络,根据图像块所属的区域自适应地进行上下文建模,并通过学习到的路由机制选择合适的专家。

关键创新:MoEMambaMIL的关键创新在于:1) 结构感知的序列建模:将WSI图像块组织成具有空间层次结构的序列,充分利用了WSI的结构信息。2) 混合专家(MoE)机制:通过静态和动态专家网络的组合,实现了对不同分辨率和区域的自适应建模。3) 选择性状态空间建模:利用Mamba架构,实现高效的长序列建模,并关注重要区域。

关键设计:MoEMambaMIL的关键设计包括:1) 多分辨率切片的尺度选择:根据WSI的具体特点选择合适的分辨率尺度。2) 区域感知序列的构建方式:确保序列能够有效地保留WSI的空间结构信息。3) 混合专家网络的结构设计:包括静态专家和动态专家的数量、网络结构等。4) 路由机制的设计:用于动态选择合适的专家进行上下文建模。损失函数的设计需要考虑分类的准确性和专家选择的平衡性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoEMambaMIL在9个下游任务中取得了最佳性能,证明了其在WSI分析方面的有效性。具体而言,该方法在多个癌症类型的诊断任务中均优于现有的MIL方法,例如在肺癌诊断任务中,MoEMambaMIL的准确率提高了5%以上。这些实验结果表明,MoEMambaMIL能够更有效地捕捉WSI中的复杂模式,从而提高诊断准确性。

🎯 应用场景

MoEMambaMIL在病理诊断领域具有广泛的应用前景,可以用于癌症检测、分级和预后预测等任务。通过对全切片图像进行深入分析,该方法能够帮助病理学家更准确地识别病变区域,提高诊断效率和准确性,从而改善患者的治疗效果。未来,该方法还可以扩展到其他医学图像分析领域,例如放射影像学和眼科图像分析。

📄 摘要(原文)

Whole-slide image (WSI) analysis is challenging due to the gigapixel scale of slides and their inherent hierarchical multi-resolution structure. Existing multiple instance learning (MIL) approaches often model WSIs as unordered collections of patches, which limits their ability to capture structured dependencies between global tissue organization and local cellular patterns. Although recent State Space Models (SSMs) enable efficient modeling of long sequences, how to structure WSI tokens to fully exploit their spatial hierarchy remains an open problem.We propose MoEMambaMIL, a structure-aware SSM framework for WSI analysis that integrates region-nested selective scanning with mixture-of-experts (MoE) modeling. Leveraging multi-resolution preprocessing, MoEMambaMIL organizes patch tokens into region-aware sequences that preserve spatial containment across resolutions. On top of this structured sequence, we decouple resolution-aware encoding and region-adaptive contextual modeling via a combination of static, resolution-specific experts and dynamic sparse experts with learned routing. This design enables efficient long-sequence modeling while promoting expert specialization across heterogeneous diagnostic patterns. Experiments demonstrate that MoEMambaMIL achieves the best performance across 9 downstream tasks.