Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

作者: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li

分类: cs.CL

发布日期: 2025-08-11

💡 一句话要点

提出Grove MoE以解决传统MoE模型的计算效率问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家 大规模语言模型 动态激活 计算效率 模型扩展性

📋 核心要点

现有的MoE模型在处理不同复杂度输入时，固定激活参数数量，导致计算效率低下。
Grove MoE通过引入不同大小的专家和动态激活机制，提升了模型的计算效率和灵活性。
GroveMoE模型在动态激活参数的基础上，性能与同类或更大规模的开源模型相当，展示了显著的效率提升。

📝 摘要（中文）

混合专家（MoE）架构是现代大型语言模型（LLMs）的重要基础，能够通过稀疏参数激活实现可扩展性。然而，传统MoE架构使用均匀大小的专家，固定激活参数数量，限制了计算效率。为此，本文提出Grove MoE，一种新颖的架构，结合了不同大小的专家，灵感来源于异构big.LITTLE CPU架构。该架构引入了动态激活机制的伴随专家，扩展了模型容量，同时保持可控的计算开销。基于此架构，本文展示了GroveMoE-Base和GroveMoE-Inst两个33B参数的LLMs，采用了中期训练和后期训练的升级策略，动态激活3.14-3.28B参数，性能与同类或更大规模的开源模型相当。

🔬 方法详解

问题定义：传统的混合专家（MoE）模型使用均匀大小的专家，固定激活参数数量，无法根据输入复杂度动态调整，导致计算效率低下。

核心思路：Grove MoE通过引入不同大小的专家和动态激活机制，灵感来源于big.LITTLE CPU架构，旨在根据输入复杂度灵活激活参数，从而提升计算效率。

技术框架：Grove MoE架构包括多个模块，其中伴随专家负责动态激活，模型容量可以根据输入复杂度进行扩展，整体架构设计注重在保持计算开销可控的同时提升性能。

关键创新：Grove MoE的最大创新在于引入了伴随专家的动态激活机制，使得模型能够根据输入的复杂性灵活调整激活的参数数量，这与传统的固定激活机制形成了鲜明对比。

关键设计：在模型设计中，采用了33B参数的GroveMoE-Base和GroveMoE-Inst，结合中期和后期训练的升级策略，动态激活3.14-3.28B参数，确保在不同输入条件下的高效计算。

📊 实验亮点

Grove MoE模型在动态激活参数的基础上，成功激活3.14-3.28B参数，性能与同类或更大规模的开源模型相当，展示了显著的计算效率提升，证明了其在实际应用中的有效性。

🎯 应用场景

Grove MoE的研究成果具有广泛的应用潜力，尤其在自然语言处理、对话系统和智能助手等领域。通过提升计算效率，该模型能够在资源受限的环境中实现更高的性能，推动智能应用的普及与发展。

📄 摘要（原文）

The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册