FedMS: Federated Learning with Mixture of Sparsely Activated Foundations Models

📄 arXiv: 2312.15926v1 📥 PDF

作者: Panlong Wu, Kangshuo Li, Ting Wang, Fangxin Wang

分类: cs.LG, cs.DC

发布日期: 2023-12-26


💡 一句话要点

提出FedMS,一种基于混合稀疏激活基础模型的联邦学习方法,提升个性化与效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 基础模型 混合专家模型 稀疏激活 低秩适应 个性化 边缘计算

📋 核心要点

  1. 现有联邦学习方法在处理参数量巨大的基础模型时,面临计算、通信和统计方面的挑战。
  2. FedMS通过两阶段训练全局和局部专家,并结合稀疏激活LoRA,实现个性化和资源高效的联邦学习。
  3. 实验表明,FedMS在性能上显著优于现有方法,在默认设置下提升高达55.25%。

📝 摘要(中文)

基础模型在自然语言处理、计算机视觉和多模态任务中取得了巨大成功。由于其庞大的参数量,训练需要大量数据。联邦学习通过在保护客户端数据隐私的同时进行协作学习,革新了机器学习。然而,将基础模型应用于联邦学习面临着计算、通信和统计方面的严峻挑战。本文提出了一种新颖的两阶段联邦学习算法FedMS。第一阶段训练全局专家,第二阶段训练局部专家,以提供更好的个性化。我们使用这两个专家构建了一个基础模型混合体(MoFM),并设计了一个带有插入门适配器的门神经网络,该适配器在第二阶段的每个通信轮次中加入聚合。为了进一步适应计算资源有限的边缘计算场景,我们设计了一种新颖的稀疏激活LoRA (SAL)算法,该算法冻结了预训练基础模型的参数,将低秩适应矩阵插入到Transformer块中,并在训练过程中逐步激活它们。大量的实验验证了FedMS的有效性,结果表明,在默认设置下,FedMS的性能优于其他SOTA基线高达55.25%。

🔬 方法详解

问题定义:论文旨在解决将大型基础模型应用于联邦学习时遇到的计算资源有限、通信成本高昂以及个性化不足的问题。现有方法难以在边缘设备上高效训练和部署基础模型,并且难以针对不同客户端的数据分布进行有效个性化。

核心思路:论文的核心思路是利用混合专家模型(MoFM)结合全局专家和局部专家,实现全局知识共享和局部个性化。同时,通过稀疏激活LoRA(SAL)技术,降低计算和通信成本,使其更适合边缘计算场景。

技术框架:FedMS算法包含两个主要阶段: 1. 全局专家训练阶段:在所有客户端上训练一个全局共享的基础模型专家。 2. 局部专家训练阶段:每个客户端在全局专家的基础上,训练一个局部专家,以适应本地数据分布。在聚合过程中,使用带有门适配器的门神经网络来动态地融合全局专家和局部专家的知识。每个通信轮次,门适配器都会参与聚合。

关键创新:论文的关键创新在于以下几点: 1. 混合专家模型(MoFM):结合全局和局部专家,实现全局知识共享和局部个性化。 2. 稀疏激活LoRA(SAL):通过冻结预训练模型参数并稀疏激活LoRA矩阵,显著降低计算和通信成本。 3. 带有门适配器的门神经网络:动态融合全局和局部专家的知识,提高模型的适应性和泛化能力。

关键设计: * MoFM结构:全局专家和局部专家共享相同的模型结构,但参数不同。 * SAL算法:在Transformer块中插入低秩适应矩阵,并使用稀疏激活函数控制其激活状态。具体来说,冻结预训练的基础模型参数,仅训练插入的LoRA矩阵,并通过控制LoRA矩阵的激活比例来平衡模型性能和计算成本。 * 门适配器:门适配器是一个小型神经网络,用于学习全局专家和局部专家的权重,从而动态地融合它们的输出。门适配器在每个通信轮次都会参与聚合,以实现更好的个性化。

📊 实验亮点

实验结果表明,FedMS在多个数据集上显著优于现有联邦学习方法。在默认设置下,FedMS的性能提升高达55.25%。此外,SAL算法能够有效降低计算和通信成本,使其更适合边缘计算场景。实验还验证了MoFM和门适配器的有效性,证明了全局知识共享和局部个性化对于提高模型性能的重要性。

🎯 应用场景

FedMS具有广泛的应用前景,例如在医疗健康领域,可以利用患者的电子病历数据训练个性化的诊断模型,同时保护患者隐私。在金融领域,可以利用用户的交易数据训练风险评估模型,提高风险管理的准确性。此外,该方法还可以应用于智能交通、智慧城市等领域,实现更高效、更个性化的服务。

📄 摘要(原文)

Foundation models have shown great success in natural language processing, computer vision, and multimodal tasks. FMs have a large number of model parameters, thus requiring a substantial amount of data to help optimize the model during the training. Federated learning has revolutionized machine learning by enabling collaborative learning from decentralized data while still preserving the data privacy of clients. Despite the great benefits foundation models can have empowered by federated learning, they face severe computation, communication, and statistical challenges. In this paper, we propose a novel two-stage federated learning algorithm called FedMS. A global expert is trained in the first stage and a local expert is trained in the second stage to provide better personalization. We construct a Mixture of Foundation Models (MoFM) with these two experts and design a gate neural network with an inserted gate adapter that joins the aggregation every communication round in the second stage. To further adapt to edge computing scenarios with limited computational resources, we design a novel Sparsely Activated LoRA (SAL) algorithm that freezes the pre-trained foundation model parameters inserts low-rank adaptation matrices into transformer blocks and activates them progressively during the training. We employ extensive experiments to verify the effectiveness of FedMS, results show that FedMS outperforms other SOTA baselines by up to 55.25% in default settings.