Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-09-26
💡 一句话要点
提出动态专家搜索(DES),提升MoE LLM在推理时的性能和稳定性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 测试时缩放 动态专家搜索 推理优化 大型语言模型
📋 核心要点
- 现有测试时缩放方法主要关注输出层面的采样,忽略了MoE模型架构中专家数量变化带来的多样性。
- 论文提出动态专家搜索(DES)方法,通过动态调整激活专家数量,在推理过程中探索更多样化的解决方案。
- 实验表明,DES在数学、代码和知识推理任务上优于现有TTS基线,提升了准确性和稳定性,且无需额外成本。
📝 摘要(中文)
测试时缩放(TTS)通过在推理期间分配额外的计算来增强大型语言模型(LLM)的推理能力。然而,现有方法主要依赖于输出层面的采样,而忽略了模型架构的作用。在主流的混合专家(MoE) LLM中,我们观察到改变激活专家的数量会产生具有稳定准确性的互补解决方案集,揭示了一个新的且未被充分探索的多样性来源。受此启发,我们提出动态专家搜索(DES),这是一种TTS策略,将专家激活提升为搜索空间的可控维度。DES集成了两个关键组件:(1)动态MoE,它能够在推理期间直接控制专家数量,以生成多样化的推理轨迹,而无需额外成本;(2)专家配置继承,它在推理路径中保持一致的专家数量,同时在运行之间改变它们,从而在整个搜索过程中平衡稳定性和多样性。在MoE架构、验证器和推理基准(即数学、代码和知识)上的大量实验表明,DES可靠地优于TTS基线,在不增加额外成本的情况下提高了准确性和稳定性。这些结果表明,DES是一种实用且可扩展的架构感知TTS形式,说明了现代LLM中的结构灵活性如何促进推理。
🔬 方法详解
问题定义:现有测试时缩放(TTS)方法主要集中在输出层面的采样,例如调整温度系数或top-k采样,而忽略了MoE模型架构本身所蕴含的潜力。MoE模型中,不同数量的激活专家可以产生互补的解决方案,但如何有效利用这种多样性是一个挑战。现有方法缺乏对专家激活数量的有效控制和利用,导致推理效率和性能提升受限。
核心思路:论文的核心思路是将专家激活数量纳入TTS的搜索空间,通过动态调整激活专家的数量来探索更多样化的推理路径。这种方法旨在利用MoE模型固有的结构灵活性,在推理过程中找到更优的专家组合,从而提高推理的准确性和稳定性。通过控制专家数量,可以在稳定性和多样性之间取得平衡,避免过度依赖单一专家或专家组合。
技术框架:DES方法包含两个主要组件:动态MoE和专家配置继承。动态MoE允许在推理过程中直接控制激活专家的数量,无需重新训练模型。专家配置继承则在推理路径中保持一致的专家数量,并在不同运行之间改变它们,以平衡稳定性和多样性。整个推理过程可以看作是在不同专家配置下进行多次推理,然后通过某种方式(例如投票或加权平均)整合结果。
关键创新:DES的关键创新在于将专家激活数量作为TTS的可控维度。与传统的输出层面采样方法不同,DES直接操作模型架构,探索更深层次的多样性。此外,专家配置继承机制保证了推理过程的稳定性和多样性,避免了随机搜索带来的不稳定性和效率低下。
关键设计:动态MoE的实现可能涉及修改MoE模型的路由机制,使其能够根据指定的数量激活专家。专家配置继承的具体实现方式未知,可能涉及到某种策略来选择和更新专家配置。论文可能还涉及到一些超参数的设置,例如搜索空间的大小、推理路径的数量等。损失函数方面,由于DES主要是在推理阶段进行,因此可能不涉及损失函数的修改,而是依赖于预训练模型的损失函数。
📊 实验亮点
实验结果表明,DES在多个推理基准测试中显著优于现有的TTS基线方法。例如,在数学问题求解任务中,DES的准确率提升了X%(具体数值未知),同时保持了推理的稳定性。此外,DES无需额外的训练成本,即可实现性能提升,具有很高的实用价值。
🎯 应用场景
该研究成果可广泛应用于各种需要强大推理能力的场景,例如数学问题求解、代码生成、知识问答等。通过动态调整专家组合,可以提升LLM在复杂任务中的表现,并降低对模型规模的依赖。此外,该方法无需额外训练成本,易于部署和应用,具有很高的实际价值。未来,该方法可以进一步扩展到其他类型的MoE模型和任务中。
📄 摘要(原文)
Test-Time Scaling (TTS) enhances the reasoning ability of large language models (LLMs) by allocating additional computation during inference. However, existing approaches primarily rely on output-level sampling while overlooking the role of model architecture. In mainstream Mixture-of-Experts (MoE) LLMs, we observe that varying the number of activated experts yields complementary solution sets with stable accuracy, revealing a new and underexplored source of diversity. Motivated by this observation, we propose Dynamic Experts Search (DES), a TTS strategy that elevates expert activation into a controllable dimension of the search space. DES integrates two key components: (1) Dynamic MoE, which enables direct control of expert counts during inference to generate diverse reasoning trajectories without additional cost; and (2) Expert Configuration Inheritance, which preserves consistent expert counts within a reasoning path while varying them across runs, thereby balancing stability and diversity throughout the search. Extensive experiments across MoE architectures, verifiers and reasoning benchmarks (i.e., math, code and knowledge) demonstrate that DES reliably outperforms TTS baselines, enhancing accuracy and stability without additional cost. These results highlight DES as a practical and scalable form of architecture-aware TTS, illustrating how structural flexibility in modern LLMs can advance reasoning.