Bridging the gap between Performance and Interpretability: An Explainable Disentangled Multimodal Framework for Cancer Survival Prediction

作者: Aniek Eijpe, Soufyan Lakbir, Melis Erdal Cesur, Sara P. Oliveira, Angelos Chatzimparmpas, Sanne Abeln, Wilson Silva

分类: cs.CV

发布日期: 2026-03-02

💡 一句话要点

提出DIMAFx框架，用于可解释的解耦多模态癌症生存预测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 癌症生存预测 可解释性AI 表示解耦 组织病理学 转录组学 SHAP值 精准医学

📋 核心要点

多模态生存预测模型日益精确，但其复杂性降低了解释性，限制了对不同数据源如何影响预测的理解。
DIMAFx框架旨在生成解耦且可解释的模态特定和模态共享表示，从而提高模型的可解释性。
DIMAFx在多个癌症队列中实现了最先进的性能，并揭示了关键的多模态交互和编码在解耦表示中的生物学信息。

📝 摘要（中文）

本文提出了一种可解释的多模态框架DIMAFx，用于癌症生存预测。该框架从组织病理学全切片图像和转录组数据中生成解耦的、可解释的模态特定和模态共享的表示。在多个癌症队列中，DIMAFx实现了最先进的性能，并提高了表示解耦能力。利用其可解释的设计和SHapley Additive exPlanations (SHAP)，DIMAFx系统地揭示了关键的多模态交互以及编码在解耦表示中的生物学信息。在乳腺癌生存预测中，最具预测性的特征包含模态共享信息，包括一个捕捉实体瘤形态的特征，主要由晚期雌激素反应进行情境化，其中较高等级的形态与通路的上调和风险增加相一致，这与已知的乳腺癌生物学相符。关键的模态特定特征捕捉了来自相互作用的脂肪和基质形态的微环境信号。这些结果表明，多模态模型可以克服性能和可解释性之间的传统权衡，支持其在精准医学中的应用。

🔬 方法详解

问题定义：现有的多模态生存预测模型虽然性能有所提升，但模型复杂性导致可解释性不足，难以洞察不同数据来源对预测结果的影响。这限制了模型在精准医学中的应用，因为医生需要理解模型做出预测的原因才能信任并使用它。

核心思路：DIMAFx的核心思路是通过解耦多模态数据（组织病理学图像和转录组数据）的表示，将信息分解为模态特定和模态共享的部分。这种解耦使得模型能够学习到更具解释性的特征，从而更容易理解不同模态数据对生存预测的贡献。通过结合SHAP值，可以进一步分析哪些特征对预测结果影响最大。

技术框架：DIMAFx框架包含以下主要模块：1) 多模态数据输入：接收组织病理学全切片图像和转录组数据；2) 特征提取：使用深度学习模型（具体结构未知）分别提取两种模态的特征；3) 解耦表示学习：设计特定的损失函数和网络结构，学习模态特定和模态共享的表示；4) 生存预测：将学习到的表示输入到生存预测模型中（具体模型未知）；5) 可解释性分析：使用SHAP值分析特征的重要性。

关键创新：DIMAFx的关键创新在于其解耦表示学习方法，能够有效地将多模态数据分解为可解释的组成部分。这种解耦不仅提高了模型的可解释性，还使得模型能够更好地捕捉不同模态之间的交互作用。此外，结合SHAP值进行可解释性分析，能够系统地揭示关键的多模态交互和编码在解耦表示中的生物学信息。

关键设计：论文中没有明确给出网络结构的细节，但可以推断出一些关键设计：1) 解耦损失函数：可能使用了对比损失或类似的损失函数，鼓励模态特定表示只包含特定模态的信息，而模态共享表示包含所有模态的共有信息；2) 网络结构：可能使用了自编码器或变分自编码器（VAE）结构，以学习数据的潜在表示；3) SHAP值计算：使用SHAP值来量化每个特征对生存预测的贡献。

🖼️ 关键图片

📊 实验亮点

DIMAFx在多个癌症队列中实现了最先进的生存预测性能，并提高了表示解耦能力。在乳腺癌生存预测中，该框架揭示了与肿瘤形态和雌激素反应相关的关键模态共享特征，以及与脂肪和基质形态相关的模态特定特征。这些发现与已知的乳腺癌生物学相符，验证了DIMAFx框架的有效性。

🎯 应用场景

DIMAFx框架可应用于精准医学领域，辅助医生进行癌症诊断和预后评估。通过揭示关键的多模态交互和生物学信息，该框架可以帮助医生更好地理解癌症的发生发展机制，从而制定更有效的治疗方案。此外，该框架还可以用于药物研发，帮助研究人员发现新的药物靶点。

📄 摘要（原文）

While multimodal survival prediction models are increasingly more accurate, their complexity often reduces interpretability, limiting insight into how different data sources influence predictions. To address this, we introduce DIMAFx, an explainable multimodal framework for cancer survival prediction that produces disentangled, interpretable modality-specific and modality-shared representations from histopathology whole-slide images and transcriptomics data. Across multiple cancer cohorts, DIMAFx achieves state-of-the-art performance and improved representation disentanglement. Leveraging its interpretable design and SHapley Additive exPlanations, DIMAFx systematically reveals key multimodal interactions and the biological information encoded in the disentangled representations. In breast cancer survival prediction, the most predictive features contain modality-shared information, including one capturing solid tumor morphology contextualized primarily by late estrogen response, where higher-grade morphology aligned with pathway upregulation and increased risk, consistent with known breast cancer biology. Key modality-specific features capture microenvironmental signals from interacting adipose and stromal morphologies. These results show that multimodal models can overcome the traditional trade-off between performance and explainability, supporting their application in precision medicine.

Bridging the gap between Performance and Interpretability: An Explainable Disentangled Multimodal Framework for Cancer Survival Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理