MoEless: Efficient MoE LLM Serving via Serverless Computing
作者: Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao Wang
分类: cs.DC, cs.AI, cs.LG
发布日期: 2026-03-06
💡 一句话要点
MoEless:通过Serverless计算实现高效MoE LLM服务
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 大型语言模型 Serverless计算 专家并行 负载均衡
📋 核心要点
- MoE模型服务面临专家负载不均衡问题,导致推理延迟增加和服务成本上升。
- MoEless利用Serverless计算,通过动态扩展和放置专家来平衡负载,提高资源利用率。
- 实验表明,MoEless显著降低了推理延迟和成本,优于现有解决方案。
📝 摘要(中文)
大型语言模型(LLMs)已成为人工智能的基石,推动了内容创作、搜索和推荐系统以及AI辅助工作流等多个领域的进步。为了缓解极高的训练成本并推进模型规模,混合专家模型(MoE)已成为现代LLM的流行骨干,这些模型通常使用专家并行(EP)在分布式部署中提供服务。然而,MoE的稀疏激活机制导致严重的专家负载不平衡,少数专家过载而其他专家则处于空闲状态,从而导致专家掉队,进而增加推理延迟和服务成本。现有的专家负载平衡解决方案假定serverful基础设施上的静态资源配置,限制了专家的可扩展性和弹性,从而导致代价高昂的实时专家交换或降低生成质量。我们提出了MoEless,这是第一个serverless MoE服务框架,它通过serverless专家来缓解专家负载不平衡并加速推理。MoEless采用轻量级的、层感知的预测器来准确估计传入的专家负载分布并主动识别掉队者。我们设计了优化的专家扩展和放置策略,以最大限度地提高函数局部性,提高GPU利用率,并在专家和GPU之间平衡负载。MoEless在Megatron-LM之上进行了原型设计,并部署在八个GPU的测试平台上。使用开源MoE模型和真实世界工作负载进行的实验表明,与最先进的解决方案相比,MoEless将推理延迟降低了43%,推理成本降低了84%。
🔬 方法详解
问题定义:论文旨在解决MoE(Mixture-of-Experts)大型语言模型在服务过程中,由于专家负载不均衡导致的推理延迟高、服务成本高的问题。现有的解决方案通常依赖于静态资源配置,无法有效应对MoE模型中专家激活的稀疏性和动态性,导致部分专家过载而其他专家空闲,从而产生“掉队者”(stragglers),最终影响整体性能。
核心思路:MoEless的核心思路是利用Serverless计算的弹性伸缩特性,将MoE模型的专家部署为独立的Serverless函数。通过预测专家负载,动态地调整每个专家的资源分配,并优化专家在不同GPU上的放置,从而实现负载均衡,提高GPU利用率,降低推理延迟和成本。
技术框架:MoEless框架主要包含以下几个模块:1) 轻量级层感知预测器:用于预测每一层中各个专家的负载分布,提前识别潜在的掉队者。2) 专家扩展和放置策略:根据预测的负载,动态地调整每个专家的资源分配,并优化专家在不同GPU上的放置,以最大化函数局部性,提高GPU利用率。3) Serverless专家执行环境:基于Serverless计算平台,将每个专家部署为独立的函数,实现弹性伸缩和负载均衡。整个流程是,首先通过预测器估计负载,然后根据负载进行专家扩展和放置,最后在Serverless环境中执行推理。
关键创新:MoEless的关键创新在于将Serverless计算引入MoE模型服务,实现了专家级别的弹性伸缩和负载均衡。与传统的静态资源配置方法相比,MoEless能够更有效地应对MoE模型中专家激活的稀疏性和动态性,从而显著降低推理延迟和成本。此外,层感知的预测器能够更准确地估计专家负载,为动态资源分配提供更可靠的依据。
关键设计:MoEless的关键设计包括:1) 层感知预测器的设计,需要选择合适的模型结构和训练数据,以保证预测的准确性。2) 专家扩展和放置策略的设计,需要在考虑函数局部性和GPU利用率的同时,保证负载均衡。3) Serverless专家执行环境的优化,需要选择合适的Serverless平台,并针对MoE模型的特点进行定制,以提高执行效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MoEless在八个GPU的测试平台上,与最先进的解决方案相比,将推理延迟降低了43%,推理成本降低了84%。这些显著的性能提升证明了MoEless在MoE模型服务方面的有效性和优越性。实验使用了开源MoE模型和真实世界的工作负载,保证了结果的可靠性和实用性。
🎯 应用场景
MoEless适用于各种需要大规模语言模型支持的应用场景,例如内容生成、智能客服、搜索推荐等。通过降低推理延迟和成本,MoEless可以使这些应用更具效率和可扩展性。未来,MoEless有望成为MoE模型服务的主流解决方案,推动AI技术在更多领域的应用。
📄 摘要(原文)
Large Language Models (LLMs) have become a cornerstone of AI, driving progress across diverse domains such as content creation, search and recommendation systems, and AI-assisted workflows. To alleviate extreme training costs and advancing model scales, Mixture-of-Experts (MoE) has become a popular backbone for modern LLMs, which are commonly served in distributed deployment using expert parallelism (EP). However, MoE's sparse activation mechanism leads to severe expert load imbalance, where a few experts become overloaded while others remain idle, resulting in expert stragglers that inflate inference latency and serving cost. Existing expert load balancing solutions assume static resource configurations on serverful infrastructures, limiting expert scalability and elasticity, and resulting in either costly real-time expert swapping or degraded generation quality. We present MoEless, the first serverless MoE serving framework that mitigates expert load imbalance and accelerates inference via serverless experts. MoEless employs lightweight, layer-aware predictors to accurately estimate incoming expert load distributions and proactively identify stragglers. We design optimized expert scaling and placement strategies to maximize function locality, improve GPU utilization, and balance loads across experts and GPUs. MoEless is prototyped on top of Megatron-LM and deployed on an eight-GPU testbed. Experiments with open-source MoE models and real-world workloads show that MoEless reduces inference latency by 43% and inference cost by 84% compared to state-of-the-art solutions.