HFedMoE: Resource-aware Heterogeneous Federated Learning with Mixture-of-Experts

📄 arXiv: 2601.00583v1 📥 PDF

作者: Zihan Fang, Zheng Lin, Senkang Hu, Yanan Ma, Yihang Tao, Yiqin Deng, Xianhao Chen, Yuguang Fang

分类: cs.LG, cs.AI, cs.NI

发布日期: 2026-01-02

备注: 14 pages, 16 figures


💡 一句话要点

HFedMoE:面向资源受限设备的异构联邦MoE学习框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 混合专家模型 异构计算 资源受限设备 大型语言模型

📋 核心要点

  1. 现有联邦学习微调LLM方法难以在资源受限设备上应用,MoE模型集成面临专家选择、异构资源和全局聚合三大挑战。
  2. HFedMoE通过专家重要性评估和信息瓶颈视角下的专家子集选择,为每个客户端定制计算高效的专家子集。
  3. 实验结果表明,HFedMoE在训练准确性和收敛速度上优于现有方法,验证了其有效性。

📝 摘要(中文)

联邦学习(FL)能够在不损害数据隐私的情况下微调大型语言模型(LLM),但LLM的巨大规模使得在资源受限的客户端(如移动设备)上进行设备端训练变得不切实际。因此,混合专家(MoE)模型应运而生,它只激活模型训练期间的一个稀疏专家子集,以减少计算负担而不牺牲性能。虽然将MoE集成到FL微调中具有巨大的潜力,但它仍然面临三个关键挑战:i)由于缺乏可靠的指标来衡量每个专家对本地微调性能的影响,为客户端选择合适的专家仍然具有挑战性;ii)客户端之间异构的计算资源严重阻碍了基于MoE的LLM微调,因为跨不同输入样本的动态专家激活可能会使资源受限的设备不堪重负;iii)客户端特定的专家子集和路由偏好会破坏全局聚合,其中未对齐的专家更新和不一致的门控网络会引入破坏性干扰。为了应对这些挑战,我们提出了HFedMoE,一个基于异构MoE的FL微调框架,它为每个客户端定制一个专家子集,以实现计算高效的LLM微调。具体来说,HFedMoE基于专家对微调性能的贡献来识别专家重要性,然后从信息瓶颈的角度自适应地选择一个专家子集,以与每个客户端的计算预算对齐。还设计了一种稀疏性感知模型聚合策略,以聚合主动微调的专家和门控参数,并根据重要性加权贡献。大量的实验表明,HFedMoE在训练准确性和收敛速度方面优于最先进的基准。

🔬 方法详解

问题定义:论文旨在解决在资源受限的异构联邦学习环境中,如何高效地微调大型语言模型的问题。现有方法,特别是直接应用联邦学习到大型MoE模型,面临着专家选择困难、异构资源限制以及全局模型聚合困难等痛点。由于客户端计算能力差异大,动态激活的专家子集可能超出部分客户端的承受能力,同时客户端特定的专家选择和路由偏好导致模型聚合时出现冲突和干扰。

核心思路:论文的核心思路是为每个客户端定制一个专家子集,使其既能充分利用MoE模型的优势,又能满足客户端的资源约束。通过评估每个专家对本地微调性能的贡献,并结合信息瓶颈理论,自适应地选择对客户端最重要且计算负担可承受的专家子集。同时,设计一种稀疏性感知的模型聚合策略,以有效聚合不同客户端的专家更新和门控参数。

技术框架:HFedMoE框架主要包含三个阶段:1) 专家重要性评估:根据专家对本地微调性能的贡献,计算每个专家的重要性得分。2) 专家子集选择:基于信息瓶颈理论,根据客户端的计算预算,自适应地选择一个专家子集。3) 模型聚合:设计一种稀疏性感知的模型聚合策略,将客户端微调的专家和门控参数进行聚合,并根据重要性进行加权。

关键创新:论文的关键创新在于提出了一种基于专家重要性和信息瓶颈的专家子集选择方法,以及一种稀疏性感知的模型聚合策略。与现有方法相比,HFedMoE能够更好地适应异构联邦学习环境,并在资源受限的客户端上实现高效的LLM微调。

关键设计:专家重要性评估可能采用梯度幅度、激活频率等指标来衡量。信息瓶颈理论用于在给定计算预算下,选择能够最大化模型性能的专家子集。稀疏性感知的模型聚合策略可能采用加权平均或梯度裁剪等技术,以避免不活跃专家的干扰。具体的损失函数设计和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HFedMoE在训练准确性和收敛速度方面优于现有基准方法。具体性能数据和对比基线未在摘要中详细说明,属于未知信息。但摘要强调了HFedMoE在效率和性能上的显著提升。

🎯 应用场景

HFedMoE适用于各种资源受限的联邦学习场景,例如移动设备上的个性化语言模型微调、边缘计算环境下的智能应用部署等。该研究有助于推动大型语言模型在隐私保护和资源受限环境下的应用,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

While federated learning (FL) enables fine-tuning of large language models (LLMs) without compromising data privacy, the substantial size of an LLM renders on-device training impractical for resource-constrained clients, such as mobile devices. Thus, Mixture-of-Experts (MoE) models have emerged as a computation-efficient solution, which activates only a sparse subset of experts during model training to reduce computing burden without sacrificing performance. Though integrating MoE into FL fine-tuning holds significant potential, it still encounters three key challenges: i) selecting appropriate experts for clients remains challenging due to the lack of a reliable metric to measure each expert's impact on local fine-tuning performance, ii) the heterogeneous computing resources across clients severely hinder MoE-based LLM fine-tuning, as dynamic expert activations across diverse input samples can overwhelm resource-constrained devices, and iii) client-specific expert subsets and routing preference undermine global aggregation, where misaligned expert updates and inconsistent gating networks in troduce destructive interference. To address these challenges, we propose HFedMoE, a heterogeneous MoE-based FL fine-tuning framework that customizes a subset of experts to each client for computation-efficient LLM fine-tuning. Specifically, HFedMoE identifies the expert importance based on its contributions to fine-tuning performance, and then adaptively selects a subset of experts from an information bottleneck perspective to align with each client' s computing budget. A sparsity-aware model aggregation strategy is also designed to aggregate the actively fine-tuned experts and gating parameters with importance weighted contributions. Extensive experiments demonstrate that HFedMoE outperforms state-of-the-art benchmarks in training accuracy and convergence speed.