Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts

作者: Boxuan Lyu, Soichiro Murakami, Hidetaka Kamigaito, Peinan Zhang

分类: cs.CL, cs.AI

发布日期: 2026-01-05

💡 一句话要点

提出kNN-MoE，通过检索增强路由解决MoE模型在分布偏移下的脆弱性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合专家模型 路由算法 k近邻检索 分布偏移 检索增强学习

📋 核心要点

现有MoE模型中的路由通常是静态的，无法适应分布偏移，导致性能下降。
kNN-MoE通过检索与当前输入相似的历史样本，并重用其专家分配来增强路由决策。
实验表明，kNN-MoE在零样本设置下表现优异，并能与监督微调方法竞争。

📝 摘要（中文）

混合专家模型(MoE)通过使用参数化的“路由”将token分派到稀疏的专家子集，从而有效地扩展大型语言模型。通常，此路由在训练一次后被冻结，导致路由决策在分布偏移下变得脆弱。为了解决这个限制，我们引入了kNN-MoE，这是一个检索增强的路由框架，它重用来自相似过去案例记忆中的最佳专家分配。该记忆通过直接优化token级别的路由logits以最大化参考集上的似然度来离线构建。至关重要的是，我们使用检索到的邻居的聚合相似性作为置信度驱动的混合系数，从而允许该方法在未找到相关案例时回退到冻结的路由。实验表明，kNN-MoE优于零样本基线，并且可以与计算成本高昂的监督微调相媲美。

🔬 方法详解

问题定义：MoE模型中的路由层通常在训练后被冻结，这使得模型在面对数据分布偏移时难以做出准确的路由决策。现有的静态路由方法无法有效利用历史信息，导致模型泛化能力受限。

核心思路：kNN-MoE的核心思想是利用k近邻(kNN)检索来增强路由决策。通过维护一个包含历史token及其最佳专家分配的记忆库，当新的token到来时，模型可以检索到与其最相似的token，并利用这些相似token的专家分配信息来指导当前token的路由。这种方法允许模型根据历史经验动态调整路由策略，从而更好地适应分布偏移。

技术框架：kNN-MoE的整体框架包括以下几个主要模块：1) 离线记忆库构建：使用参考集优化token级别的路由logits，并将token及其对应的最佳专家分配存储到记忆库中。2) 在线kNN检索：对于每个新的token，使用kNN算法在记忆库中检索与其最相似的k个token。3) 相似度加权混合：使用检索到的邻居的聚合相似度作为置信度驱动的混合系数，将kNN检索结果与原始的静态路由器的输出进行加权混合，得到最终的路由logits。

关键创新：kNN-MoE的关键创新在于将kNN检索与MoE路由相结合，从而实现了动态的、自适应的路由决策。与传统的静态路由方法相比，kNN-MoE能够利用历史信息来指导路由，从而更好地适应分布偏移。此外，使用相似度加权混合的方式，使得模型能够在找到相关案例时利用kNN检索结果，而在没有相关案例时回退到原始的静态路由器，从而保证了模型的鲁棒性。

关键设计：关键设计包括：1) 记忆库的构建方式：通过直接优化token级别的路由logits来构建记忆库，保证了记忆库中存储的是最佳的专家分配信息。2) 相似度度量方式：选择合适的相似度度量方式（例如余弦相似度）来衡量token之间的相似性。3) 相似度加权混合系数的计算方式：使用检索到的邻居的聚合相似度作为混合系数，使得模型能够根据检索结果的置信度来调整kNN检索结果的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，kNN-MoE在零样本设置下优于基线方法，并且能够与计算成本高昂的监督微调方法相媲美。具体来说，kNN-MoE在多个数据集上取得了显著的性能提升，证明了其在处理分布偏移方面的有效性。此外，实验还验证了相似度加权混合策略的有效性，表明该策略能够有效地平衡kNN检索结果和原始静态路由器的输出。

🎯 应用场景

kNN-MoE可应用于各种需要处理分布偏移的MoE模型，例如自然语言处理、语音识别和计算机视觉等领域。该方法能够提高模型在实际应用中的鲁棒性和泛化能力，尤其是在数据分布不稳定或存在对抗性攻击的情况下。此外，kNN-MoE还可以用于在线学习场景，通过不断更新记忆库来适应新的数据分布。

📄 摘要（原文）

Mixture-of-Experts (MoE) architectures scale large language models efficiently by employing a parametric "router" to dispatch tokens to a sparse subset of experts. Typically, this router is trained once and then frozen, rendering routing decisions brittle under distribution shifts. We address this limitation by introducing kNN-MoE, a retrieval-augmented routing framework that reuses optimal expert assignments from a memory of similar past cases. This memory is constructed offline by directly optimizing token-wise routing logits to maximize the likelihood on a reference set. Crucially, we use the aggregate similarity of retrieved neighbors as a confidence-driven mixing coefficient, thus allowing the method to fall back to the frozen router when no relevant cases are found. Experiments show kNN-MoE outperforms zero-shot baselines and rivals computationally expensive supervised fine-tuning.

Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册