FluxMoE: Decoupling Expert Residency for High-Performance MoE Serving
作者: Qingxiu Liu, Cyril Y. He, Hanser Jiang, Zion Wang, Alan Zhao, Patrick P. C. Lee
分类: cs.LG
发布日期: 2026-04-06
💡 一句话要点
FluxMoE:解耦专家常驻性,提升MoE模型高性能推理服务
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 MoE推理 GPU内存管理 专家分页 vLLM 大语言模型 推理加速
📋 核心要点
- MoE模型参数量巨大,推理时专家权重常驻GPU导致内存利用率低,影响KV缓存容量和吞吐量。
- FluxMoE通过专家分页机制,将专家权重视为瞬态资源,按需加载和卸载,释放GPU内存给KV缓存。
- 实验表明,在内存受限情况下,FluxMoE相比vLLM,吞吐量提升高达3.0倍,同时保持模型精度。
📝 摘要(中文)
混合专家模型(MoE)已成为扩展大型语言模型的主流范式,但其迅速增长的参数规模在推理过程中引入了一个根本性的低效率问题:大多数专家权重在GPU内存中保持空闲状态,同时与性能关键的运行时状态(如键值(KV)缓存)竞争。由于KV缓存容量直接决定了服务吞吐量,这种不匹配导致内存利用不足和性能下降。本文提出了FluxMoE,一种新的MoE推理系统,它将专家参数与持久GPU驻留解耦。FluxMoE引入了一种专家分页抽象,将专家权重视为流式传输的瞬态资源,根据需要将其物化,并在使用后立即将其逐出,从而允许GPU内存优先分配给对吞吐量至关重要的运行时状态。我们在vLLM之上实现了FluxMoE,以在严格的内存约束下实现高效的MoE推理。实验结果表明,在内存密集型情况下,FluxMoE的吞吐量比vLLM提高了3.0倍,且不影响模型保真度。
🔬 方法详解
问题定义:MoE模型推理时,所有专家模型的参数都需要加载到GPU内存中,即使在一次推理过程中只有少数专家被激活。这导致大量内存被闲置的专家参数占用,限制了KV缓存的大小,从而降低了推理吞吐量。现有方法无法有效解决专家参数常驻内存带来的资源浪费问题。
核心思路:FluxMoE的核心思路是将专家模型的参数视为可以动态加载和卸载的资源,类似于操作系统的内存分页机制。只有在需要使用某个专家时,才将其参数加载到GPU内存中;使用完毕后,立即将其从GPU内存中卸载,释放内存空间。这样可以最大限度地保证KV缓存的容量,从而提高推理吞吐量。
技术框架:FluxMoE构建于vLLM之上,主要包含以下几个模块:专家分页管理器(Expert Paging Manager)、请求调度器(Request Scheduler)和专家执行器(Expert Executor)。专家分页管理器负责专家参数的加载和卸载;请求调度器根据专家的可用性调度推理请求;专家执行器负责执行具体的专家计算。整体流程为:请求到达后,请求调度器根据路由结果确定需要使用的专家,专家分页管理器检查专家是否已加载,若未加载则从存储介质加载,专家执行器执行计算,计算完成后专家分页管理器卸载专家参数。
关键创新:FluxMoE的关键创新在于引入了专家分页抽象,将专家参数视为流式传输的瞬态资源。与现有方法中专家参数常驻GPU内存不同,FluxMoE实现了专家参数的按需加载和卸载,从而显著提高了GPU内存的利用率。这种方法特别适用于内存资源受限的场景。
关键设计:FluxMoE的关键设计包括:1) 专家分页策略:选择合适的策略来决定何时加载和卸载专家参数,例如LRU(Least Recently Used)策略。2) 数据传输优化:采用高效的数据传输方式,减少专家参数加载和卸载的延迟。3) 内存管理:合理分配GPU内存,保证KV缓存和专家参数的存储空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在内存密集型场景下,FluxMoE相比于vLLM,吞吐量提升高达3.0倍,同时保持了模型精度。具体来说,在相同的硬件配置下,FluxMoE能够处理更多的并发请求,并且延迟更低。这证明了FluxMoE在提高MoE模型推理性能方面的有效性。
🎯 应用场景
FluxMoE适用于各种需要部署大型MoE模型的场景,例如在线对话系统、机器翻译、内容生成等。尤其是在资源受限的环境下,例如边缘设备或低成本服务器,FluxMoE能够显著提高MoE模型的推理性能,降低部署成本。该研究成果有助于推动MoE模型在实际应用中的普及。
📄 摘要(原文)
Mixture-of-Experts (MoE) models have become a dominant paradigm for scaling large language models, but their rapidly growing parameter sizes introduce a fundamental inefficiency during inference: most expert weights remain idle in GPU memory while competing with performance-critical runtime state such as the key-value (KV) cache. Since KV cache capacity directly determines serving throughput, this mismatch leads to underutilized memory and degraded performance. In this paper, we present FluxMoE, a new MoE inference system that decouples expert parameters from persistent GPU residency. FluxMoE introduces an expert paging abstraction that treats expert weights as streamed, transient resources, materializing them on demand and evicting them immediately after use, allowing GPU memory to be preferentially allocated to throughput-critical runtime state. We implement FluxMoE atop vLLM to enable efficient MoE inference under severe memory constraints. Experimental results demonstrate that FluxMoE achieves up to 3.0$\times$ throughput gains over vLLM in memory-intensive regimes, without compromising model fidelity.