FourierMoE: Fourier Mixture-of-Experts Adaptation of Large Language Models

📄 arXiv: 2604.01762v1 📥 PDF

作者: Juyong Jiang, Fan Wang, Hong Qi, Sunghun Kim, Jing Tang

分类: cs.LG, cs.AI, cs.CL, cs.DC

发布日期: 2026-04-02

备注: The first two authors contributed equally to this work; listing order is random


💡 一句话要点

提出FourierMoE,通过频域混合专家模型高效微调大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 参数高效微调 混合专家模型 频域分析 多任务学习

📋 核心要点

  1. 现有PEFT方法在多任务微调中易受任务干扰,且参数效率受限,难以充分表达。
  2. FourierMoE在频域进行专家混合,利用IDFT将token分配给特定频率的专家,提升参数效率。
  3. 实验表明,FourierMoE在单任务和多任务设置中均优于现有方法,且训练参数更少。

📝 摘要(中文)

参数高效微调(PEFT)已成为在有限计算预算下调整大型语言模型(LLM)的关键范式。然而,标准的PEFT方法在多任务微调环境中常常表现不佳,因为不同的优化目标会导致任务间的干扰,而有限的参数预算会导致表征能力不足。最近的方法通过引入混合专家(MoE)来缓解这些问题,但它们主要在空间域中操作,这可能会引入结构冗余和参数开销。为了克服这些限制,我们将调整过程重新定义在频域中。我们的频谱分析表明,不同的任务表现出不同的频率能量分布,并且LLM层表现出不同的频率敏感性。受这些见解的启发,我们提出了FourierMoE,它将MoE架构与逆离散傅里叶变换(IDFT)相结合,用于频率感知的调整。具体来说,FourierMoE采用频率自适应路由器将token分派给专门处理不同频带的专家。每个专家学习一组共轭对称的复系数,保留完整的相位和幅度信息,同时理论上保证无损IDFT重建为实值空间权重。在28个基准测试、多种模型架构和规模上的广泛评估表明,FourierMoE在单任务和多任务设置中始终优于具有竞争力的基线,同时使用明显更少的训练参数。这些结果突出了频域专家调整作为LLM微调的有效且参数高效的范例的前景。

🔬 方法详解

问题定义:现有参数高效微调方法(PEFT)在多任务学习场景下表现不佳。主要痛点在于:1)不同任务的优化目标相互干扰;2)有限的参数预算导致模型表征能力不足,无法有效捕捉不同任务的特性。传统的MoE方法虽然可以缓解这些问题,但主要在空间域进行,容易引入结构冗余和参数开销。

核心思路:论文的核心思路是将模型适配过程从空间域转换到频域。通过对不同任务和LLM层进行频谱分析,发现不同任务具有不同的频率能量分布,且LLM层对不同频率的敏感度也不同。因此,可以设计一种频率感知的MoE结构,让不同的专家专注于学习不同的频率成分,从而提高参数利用率和模型性能。

技术框架:FourierMoE的整体架构包括以下几个主要模块:1)频率自适应路由器:根据输入token的特征,将token分配给不同的专家;2)频域专家:每个专家负责学习特定频率范围内的信息,使用共轭对称的复系数来表示频率信息,保证IDFT重建后的权重是实数;3)逆离散傅里叶变换(IDFT):将频域的专家权重转换回空间域,用于模型的微调。整个流程可以概括为:输入token -> 频率自适应路由 -> 频域专家 -> IDFT -> 模型微调。

关键创新:FourierMoE的关键创新在于将MoE结构与频域分析相结合,实现了频率感知的模型适配。与传统的空间域MoE相比,FourierMoE能够更有效地利用参数,避免结构冗余和参数开销。通过在频域进行专家混合,模型可以更好地捕捉不同任务的频率特性,从而提高多任务学习的性能。

关键设计:FourierMoE的关键设计包括:1)频率自适应路由器的设计:路由器的目标是根据输入token的特征,将token分配给最合适的频率专家。具体实现方式未知,但需要保证路由器能够有效地捕捉token的频率信息。2)共轭对称复系数的使用:为了保证IDFT重建后的权重是实数,FourierMoE使用共轭对称的复系数来表示频率信息。这种设计保证了频域表示的完备性,同时避免了复数运算带来的额外开销。3)损失函数的设计:损失函数需要考虑模型的性能和参数效率,可能包括交叉熵损失和正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FourierMoE在28个基准测试中,无论是在单任务还是多任务设置下,都显著优于现有的PEFT方法。具体来说,FourierMoE在性能上超越了LoRA、Adapter等基线方法,同时使用的可训练参数数量更少。这证明了频域专家调整在LLM微调中的有效性和参数效率。

🎯 应用场景

FourierMoE具有广泛的应用前景,尤其适用于资源受限场景下的大语言模型微调。例如,在移动设备或边缘计算平台上,可以使用FourierMoE对LLM进行个性化定制,以满足特定用户的需求。此外,FourierMoE还可以应用于多任务学习、领域自适应等场景,提高模型的泛化能力和适应性。未来,FourierMoE有望成为一种通用的LLM微调方法,推动LLM在各个领域的应用。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) has emerged as a crucial paradigm for adapting large language models (LLMs) under constrained computational budgets. However, standard PEFT methods often struggle in multi-task fine-tuning settings, where diverse optimization objectives induce task interference and limited parameter budgets lead to representational deficiency. While recent approaches incorporate mixture-of-experts (MoE) to alleviate these issues, they predominantly operate in the spatial domain, which may introduce structural redundancy and parameter overhead. To overcome these limitations, we reformulate adaptation in the spectral domain. Our spectral analysis reveals that different tasks exhibit distinct frequency energy distributions, and that LLM layers display heterogeneous frequency sensitivities. Motivated by these insights, we propose FourierMoE, which integrates the MoE architecture with the inverse discrete Fourier transform (IDFT) for frequency-aware adaptation. Specifically, FourierMoE employs a frequency-adaptive router to dispatch tokens to experts specialized in distinct frequency bands. Each expert learns a set of conjugate-symmetric complex coefficients, preserving complete phase and amplitude information while theoretically guaranteeing lossless IDFT reconstruction into real-valued spatial weights. Extensive evaluations across 28 benchmarks, multiple model architectures, and scales demonstrate that FourierMoE consistently outperforms competitive baselines in both single-task and multi-task settings while using significantly fewer trainable parameters. These results highlight the promise of spectral-domain expert adaptation as an effective and parameter-efficient paradigm for LLM fine-tuning.