SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

作者: Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min

分类: cs.CV

发布日期: 2026-03-06

备注: Accepted by AAAI-2026-Oral

💡 一句话要点

提出SpaCRD，融合组织学和空间转录组学数据，实现跨平台癌症区域精准检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 癌症区域检测 空间转录组学 组织学图像 多模态融合 迁移学习 深度学习 交叉注意力

📋 核心要点

现有癌症区域检测方法依赖组织学图像，易受形态相似性干扰，导致误报率高，缺乏对肿瘤微环境的深入理解。
SpaCRD通过迁移学习，深度融合组织学图像和空间转录组学数据，自适应捕获组织学特征和基因表达的潜在共表达模式。
实验结果表明，SpaCRD在跨样本、跨平台和跨批次的癌症区域检测中，显著优于现有方法，具有更强的泛化能力。

📝 摘要（中文）

准确检测癌症组织区域(CTR)有助于深入分析肿瘤微环境，并为治疗反应提供关键见解。传统CTR检测方法依赖组织学图像中丰富的细胞形态，但易受不同组织区域形态相似性的影响，导致高误报率。空间转录组学(ST)的突破性进展提供了详细的细胞表型和空间定位信息，为更准确的癌症区域检测提供了新机遇。然而，现有方法无法有效整合组织学图像和ST数据，尤其是在跨样本和跨平台/批次设置下实现CTR检测。为解决这一挑战，我们提出SpaCRD，一种基于迁移学习的方法，深度整合组织学图像和ST数据，以实现跨不同样本、平台和批次的可靠CTR检测。SpaCRD的核心是类别正则化的变分重构引导的双向交叉注意力融合网络，使模型能够自适应地从多个角度捕获组织学特征和基因表达之间的潜在共表达模式。在涵盖各种疾病类型、平台和批次的23个匹配的组织学-ST数据集上的广泛基准分析表明，SpaCRD在CTR检测方面始终优于现有的八种最先进的方法。

🔬 方法详解

问题定义：论文旨在解决癌症组织区域（CTR）检测中，传统方法依赖组织学图像易产生高误报的问题，以及现有方法无法有效整合组织学图像和空间转录组学（ST）数据，尤其是在跨样本、跨平台/批次设置下的挑战。现有方法的痛点在于无法充分利用ST数据提供的细胞表型和空间定位信息，导致检测精度受限。

核心思路：论文的核心思路是利用迁移学习，构建一个能够深度融合组织学图像和ST数据的模型，从而更准确地检测癌症区域。通过类别正则化的变分重构引导的双向交叉注意力融合网络，模型能够自适应地学习组织学特征和基因表达之间的潜在共表达模式，提高检测的准确性和鲁棒性。

技术框架：SpaCRD的整体框架包含以下几个主要模块：1) 特征提取模块：分别从组织学图像和ST数据中提取特征；2) 类别正则化的变分自编码器（VAE）：用于学习数据的潜在表示，并进行类别正则化，以提高模型的泛化能力；3) 双向交叉注意力融合网络：用于融合组织学特征和基因表达特征，捕获它们之间的共表达模式；4) 重构模块：用于重构原始数据，以提高模型的学习能力。整个流程是先分别提取两种模态的特征，然后通过VAE进行潜在表示学习和类别正则化，再通过双向交叉注意力网络进行特征融合，最后通过重构模块进行模型优化。

关键创新：SpaCRD的关键创新在于：1) 深度融合组织学图像和空间转录组学数据，充分利用两种模态的信息；2) 提出类别正则化的变分自编码器，提高模型的泛化能力；3) 设计双向交叉注意力融合网络，自适应地捕获组织学特征和基因表达之间的共表达模式。与现有方法的本质区别在于，SpaCRD能够有效地整合多模态数据，并在跨样本、跨平台/批次设置下实现可靠的癌症区域检测。

关键设计：在类别正则化的VAE中，使用了KL散度损失来约束潜在变量的分布，并引入了类别信息来正则化潜在空间，以提高模型的判别能力。在双向交叉注意力融合网络中，使用了多头注意力机制来捕获不同特征之间的关系，并使用了残差连接来缓解梯度消失问题。损失函数包括重构损失、KL散度损失和分类损失，通过联合优化这些损失函数，可以提高模型的整体性能。

🖼️ 关键图片

📊 实验亮点

SpaCRD在23个匹配的组织学-ST数据集上进行了广泛的基准测试，涵盖多种疾病类型、平台和批次。实验结果表明，SpaCRD在CTR检测方面始终优于现有的八种最先进的方法。具体的性能提升幅度未知，但摘要强调了其一致的优越性，表明SpaCRD具有很强的鲁棒性和泛化能力。

🎯 应用场景

SpaCRD在癌症诊断、预后预测和治疗方案选择方面具有广泛的应用前景。通过准确检测癌症组织区域，可以更深入地了解肿瘤微环境，为个性化治疗提供依据。该研究成果还可以应用于药物研发，加速新药的筛选和验证，并为精准医疗提供技术支持。

📄 摘要（原文）

Accurate detection of cancer tissue regions (CTR) enables deeper analysis of the tumor microenvironment and offers crucial insights into treatment response. Traditional CTR detection methods, which typically rely on the rich cellular morphology in histology images, are susceptible to a high rate of false positives due to morphological similarities across different tissue regions. The groundbreaking advances in spatial transcriptomics (ST) provide detailed cellular phenotypes and spatial localization information, offering new opportunities for more accurate cancer region detection. However, current methods are unable to effectively integrate histology images with ST data, especially in the context of cross-sample and cross-platform/batch settings for accomplishing the CTR detection. To address this challenge, we propose SpaCRD, a transfer learning-based method that deeply integrates histology images and ST data to enable reliable CTR detection across diverse samples, platforms, and batches. Once trained on source data, SpaCRD can be readily generalized to accurately detect cancerous regions across samples from different platforms and batches. The core of SpaCRD is a category-regularized variational reconstruction-guided bidirectional cross-attention fusion network, which enables the model to adaptively capture latent co-expression patterns between histological features and gene expression from multiple perspectives. Extensive benchmark analysis on 23 matched histology-ST datasets spanning various disease types, platforms, and batches demonstrates that SpaCRD consistently outperforms existing eight state-of-the-art methods in CTR detection.

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理