PathMoE: Interpretable Multimodal Interaction Experts for Pediatric Brain Tumor Classification

📄 arXiv: 2603.01547v1 📥 PDF

作者: Jian Yu, Joakim Nguyen, Jinrui Fang, Awais Naeem, Zeyuan Cao, Sanjay Krishnan, Nicholas Konz, Tianlong Chen, Chandra Krishnan, Hairong Wang, Edward Castillo, Ying Ding, Ankita Shukla

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出PathMoE以解决儿童脑肿瘤分类中的多模态信息整合问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 儿童脑肿瘤 多模态融合 可解释性 专家混合模型 病理分析

📋 核心要点

  1. 儿童脑肿瘤分类面临组织学复杂性和数据不足的挑战,现有方法未能有效整合多模态信息。
  2. PathMoE框架通过交互感知的专家混合架构,集成H&E切片、病理报告和细胞图谱,提升分类性能。
  3. 在内部数据集上,PathMoE的宏观F1值从0.762提升至0.799,在TCGA数据集上提升至0.709,显示出显著的性能提升。

📝 摘要(中文)

儿童中枢神经系统肿瘤的准确分类仍然面临挑战,主要由于组织学复杂性和训练数据不足。尽管病理基础模型在全切片图像分析方面取得了进展,但往往未能充分利用临床文本和组织微结构中的丰富互补信息。为此,我们提出了PathMoE,一个可解释的多模态框架,集成了H&E切片、病理报告和细胞图谱,通过基于交互的专家混合架构构建于各模态的先进基础模型之上。PathMoE通过训练专门的专家来捕捉模态的独特性、冗余性和协同作用,采用输入依赖的门控机制动态加权这些交互,提供样本级的可解释性。我们的框架在内部儿童脑肿瘤数据集和外部TCGA数据集上进行了评估,结果显示PathMoE在整合多模态信息后显著提升了分类性能。

🔬 方法详解

问题定义:本论文旨在解决儿童脑肿瘤分类中多模态信息整合不足的问题。现有方法在处理组织学复杂性和有限训练数据时,未能充分利用临床文本和组织微结构的信息。

核心思路:PathMoE框架通过构建交互感知的专家混合架构,集成不同模态的信息,动态加权各模态的交互,以提高分类的准确性和可解释性。

技术框架:PathMoE的整体架构包括三个主要模块:H&E切片分析模块、病理报告处理模块和细胞图谱分析模块。每个模块使用各自的基础模型进行特征提取,并通过专家混合机制进行信息融合。

关键创新:PathMoE的主要创新在于其输入依赖的门控机制,能够动态调整不同模态之间的权重,从而实现更高的分类性能和样本级的可解释性。这一设计与传统的单一模态方法有本质区别。

关键设计:在模型设计中,采用了专门的损失函数以平衡各模态的贡献,同时在网络结构中引入了专家模块,以捕捉模态的独特性和协同作用。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

PathMoE在内部儿童脑肿瘤数据集上将宏观F1值从0.762提升至0.799,提升幅度为0.037;在TCGA数据集上,整合图谱知识后宏观F1值从0.668提升至0.709,提升幅度为0.041。这些结果表明PathMoE在多模态融合方面的显著优势。

🎯 应用场景

该研究的潜在应用领域包括儿童肿瘤的临床诊断和治疗决策支持。通过提供可解释的分类结果,PathMoE能够增强临床医生对模型的信任,促进稀有肿瘤亚型的诊断验证,具有重要的实际价值和未来影响。

📄 摘要(原文)

Accurate classification of pediatric central nervous system tumors remains challenging due to histological complexity and limited training data. While pathology foundation models have advanced whole-slide image (WSI) analysis, they often fail to leverage the rich, complementary information found in clinical text and tissue microarchitecture. To this end, we propose PathMoE, an interpretable multimodal framework that integrates H\&E slides, pathology reports, and nuclei-level cell graphs via an interaction-aware mixture-of-experts architecture built on state-of-the-art foundation models for each modality. By training specialized experts to capture modality uniqueness, redundancy, and synergy, PathMoE employs an input-dependent gating mechanism that dynamically weights these interactions, providing sample-level interpretability. We evaluate our framework on two dataset-specific classification tasks on an internal pediatric brain tumor dataset (PBT) and external TCGA datasets. PathMoE improves macro-F1 from 0.762 to 0.799 (+0.037) on PBT when integrating WSI, text, and graph modalities; on TCGA, augmenting WSI with graph knowledge improves macro-F1 from 0.668 to 0.709 (+0.041). These results demonstrate significant performance gains over state-of-the-art image-only baselines while revealing the specific modality interactions driving individual predictions. This interpretability is particularly critical for rare tumor subtypes, where transparent model reasoning is essential for clinical trust and diagnostic validation.