Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

📄 arXiv: 2603.04887v1 📥 PDF

作者: Hong Liu, Dong Wei, Qian Dai, Xian Wu, Yefeng Zheng, Liansheng Wang

分类: cs.CV

发布日期: 2026-03-05

备注: Medical Image Analysis 2025. arXiv admin note: substantial text overlap with arXiv:2403.11803

DOI: 10.1016/j.media.2025.103759


💡 一句话要点

提出FedMEPD框架,解决多模态脑肿瘤分割中模态异构和个性化建模难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态学习 脑肿瘤分割 模态异构性 个性化建模 医学图像分析 交叉注意力

📋 核心要点

  1. 现有联邦学习方法主要关注模态内异构性,忽略了多模态医学图像中模态间异构性和数据个性化需求。
  2. FedMEPD框架采用模态特定编码器处理模态间异构性,并使用部分个性化解码器满足个体客户端的个性化需求。
  3. 在BraTS数据集上的实验表明,FedMEPD在多模态脑肿瘤分割任务中优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种新的联邦学习(FL)框架,即具有联邦模态特定编码器和部分个性化多模态融合解码器(FedMEPD),以解决多模态医学图像分析中普遍存在的模态内和模态间异构性问题。FedMEPD为每个模态采用专属编码器来解决模态间异构性。这些编码器是完全联邦的,而解码器是部分个性化的,通过全局和局部参数更新之间的差异来动态确定哪些解码器滤波器需要个性化。服务端使用具有全模态数据的融合解码器,通过反向传播桥接模态并优化编码器。此外,从融合的多模态表示中提取多个锚点,并与模型参数一起分发给客户端。客户端使用缩放点积交叉注意力,利用全局全模态锚点校准其缺失模态表示,以弥补由于模态缺失造成的信息损失。在BraTS 2018和2020数据集上的实验结果表明,FedMEPD优于现有的多模态和个性化联邦学习方法,证明了其设计的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态脑肿瘤分割中,由于联邦学习参与者拥有不同模态数据子集(模态间异构性)以及需要个性化模型而带来的挑战。现有联邦学习方法主要关注模态内异构性,无法有效处理模态缺失和个性化建模问题。

核心思路:论文的核心思路是利用模态特定的编码器来处理模态间的异构性,并采用部分个性化的解码器来满足每个参与者的个性化需求。通过服务端的全模态数据和锚点信息,帮助客户端弥补缺失模态的信息,从而提升分割性能。

技术框架:FedMEPD框架包含以下主要模块:1) 模态特定编码器:每个模态都有一个专属的编码器,负责提取该模态的特征表示。这些编码器通过联邦学习进行训练。2) 融合解码器(服务端):服务端拥有全模态数据,使用融合解码器将所有模态的特征融合,并通过反向传播优化编码器。3) 部分个性化解码器(客户端):客户端拥有部分个性化的解码器,根据全局和局部参数更新的差异动态调整个性化程度。4) 锚点机制:服务端从融合的多模态表示中提取锚点,并分发给客户端,用于校准缺失模态的表示。

关键创新:论文的关键创新在于:1) 提出了一种新的联邦学习框架,可以同时处理模态间异构性和个性化建模问题。2) 引入了部分个性化解码器,可以根据客户端的局部数据特征动态调整个性化程度。3) 利用服务端的全模态数据和锚点信息,帮助客户端弥补缺失模态的信息。

关键设计:1) 模态特定编码器可以使用各种卷积神经网络结构,例如U-Net。2) 部分个性化解码器通过计算全局和局部参数更新的差异来确定哪些滤波器需要个性化。3) 锚点提取方法可以使用K-means聚类等算法。4) 客户端使用缩放点积交叉注意力机制,将缺失模态的表示向全局全模态锚点校准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在BraTS 2018和2020数据集上的实验结果表明,FedMEPD框架在多模态脑肿瘤分割任务中取得了显著的性能提升,优于现有的联邦学习方法。具体来说,FedMEPD在Dice score和Hausdorff distance等指标上均取得了明显的提升,证明了其在处理模态异构性和个性化建模方面的有效性。

🎯 应用场景

该研究成果可应用于多中心、多模态医学影像分析,例如脑肿瘤分割、病灶检测等。通过联邦学习,可以在保护患者隐私的前提下,利用多中心的数据进行模型训练,提高模型的泛化能力和分割精度。该方法还可以应用于其他多模态数据分析任务,例如多模态情感识别、多模态行为分析等。

📄 摘要(原文)

Most existing federated learning (FL) methods for medical image analysis only considered intramodal heterogeneity, limiting their applicability to multimodal imaging applications. In practice, some FL participants may possess only a subset of the complete imaging modalities, posing intermodal heterogeneity as a challenge to effectively training a global model on all participants' data. Meanwhile, each participant expects a personalized model tailored to its local data characteristics in FL. This work proposes a new FL framework with federated modality-specific encoders and partially personalized multimodal fusion decoders (FedMEPD) to address the two concurrent issues. Specifically, FedMEPD employs an exclusive encoder for each modality to account for the intermodal heterogeneity. While these encoders are fully federated, the decoders are partially personalized to meet individual needs -- using the discrepancy between global and local parameter updates to dynamically determine which decoder filters are personalized. Implementation-wise, a server with full-modal data employs a fusion decoder to fuse representations from all modality-specific encoders, thus bridging the modalities to optimize the encoders via backpropagation. Moreover, multiple anchors are extracted from the fused multimodal representations and distributed to the clients in addition to the model parameters. Conversely, the clients with incomplete modalities calibrate their missing-modal representations toward the global full-modal anchors via scaled dot-product cross-attention, making up for the information loss due to absent modalities. FedMEPD is validated on the BraTS 2018 and 2020 multimodal brain tumor segmentation benchmarks. Results show that it outperforms various up-to-date methods for multimodal and personalized FL, and its novel designs are effective.