Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
作者: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
分类: cs.CL
发布日期: 2025-08-11
💡 一句话要点
提出Grove MoE以解决传统MoE模型的计算效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家 大规模语言模型 动态激活 计算效率 模型扩展性
📋 核心要点
- 现有的MoE模型在处理不同复杂度输入时,固定激活参数数量,导致计算效率低下。
- Grove MoE通过引入不同大小的专家和动态激活机制,提升了模型的计算效率和灵活性。
- GroveMoE模型在动态激活参数的基础上,性能与同类或更大规模的开源模型相当,展示了显著的效率提升。
📝 摘要(中文)
混合专家(MoE)架构是现代大型语言模型(LLMs)的重要基础,能够通过稀疏参数激活实现可扩展性。然而,传统MoE架构使用均匀大小的专家,固定激活参数数量,限制了计算效率。为此,本文提出Grove MoE,一种新颖的架构,结合了不同大小的专家,灵感来源于异构big.LITTLE CPU架构。该架构引入了动态激活机制的伴随专家,扩展了模型容量,同时保持可控的计算开销。基于此架构,本文展示了GroveMoE-Base和GroveMoE-Inst两个33B参数的LLMs,采用了中期训练和后期训练的升级策略,动态激活3.14-3.28B参数,性能与同类或更大规模的开源模型相当。
🔬 方法详解
问题定义:传统的混合专家(MoE)模型使用均匀大小的专家,固定激活参数数量,无法根据输入复杂度动态调整,导致计算效率低下。
核心思路:Grove MoE通过引入不同大小的专家和动态激活机制,灵感来源于big.LITTLE CPU架构,旨在根据输入复杂度灵活激活参数,从而提升计算效率。
技术框架:Grove MoE架构包括多个模块,其中伴随专家负责动态激活,模型容量可以根据输入复杂度进行扩展,整体架构设计注重在保持计算开销可控的同时提升性能。
关键创新:Grove MoE的最大创新在于引入了伴随专家的动态激活机制,使得模型能够根据输入的复杂性灵活调整激活的参数数量,这与传统的固定激活机制形成了鲜明对比。
关键设计:在模型设计中,采用了33B参数的GroveMoE-Base和GroveMoE-Inst,结合中期和后期训练的升级策略,动态激活3.14-3.28B参数,确保在不同输入条件下的高效计算。
📊 实验亮点
Grove MoE模型在动态激活参数的基础上,成功激活3.14-3.28B参数,性能与同类或更大规模的开源模型相当,展示了显著的计算效率提升,证明了其在实际应用中的有效性。
🎯 应用场景
Grove MoE的研究成果具有广泛的应用潜力,尤其在自然语言处理、对话系统和智能助手等领域。通过提升计算效率,该模型能够在资源受限的环境中实现更高的性能,推动智能应用的普及与发展。
📄 摘要(原文)
The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.