Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

📄 arXiv: 2604.01152v1 📥 PDF

作者: Mohammad R. Abu Ayyash

分类: cs.CL, cs.AI

发布日期: 2026-04-01

备注: 26 pages, 13 figures, 4 tables


💡 一句话要点

Brainstacks:基于冻结MoE-LoRA堆栈的跨领域认知能力持续LLM学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 跨领域学习 MoE-LoRA 知识迁移 元路由

📋 核心要点

  1. 现有持续学习方法难以在大型语言模型中有效融合多领域知识,导致灾难性遗忘和性能下降。
  2. Brainstacks通过冻结的MoE-LoRA堆栈,结合残差增强、零空间投影和基于结果的元路由,实现跨领域知识的有效组合和迁移。
  3. 实验表明,Brainstacks在TinyLlama-1.1B和Gemma 3 12B IT模型上,实现了更快的收敛速度、更高的生成质量和可转移的认知能力。

📝 摘要(中文)

Brainstacks是一种模块化架构,用于大型语言模型的持续多领域微调。它将领域知识封装为冻结的适配器堆栈,这些堆栈在推理时以累加方式作用于共享的冻结基础模型之上。该架构包含五个互锁的组件:(1)MoE-LoRA,在QLoRA 4位量化和rsLoRA缩放下的所有七个Transformer投影中使用Shazeer风格的noisy top-2路由;(2)通过冻结已训练的堆栈并添加新的堆栈来执行残差增强的内部循环;(3)使用课程顺序依赖关系训练顺序领域特定堆栈的外部循环;(4)通过随机SVD进行零空间投影,将新堆栈约束到与先前方向正交的子空间,从而实现孤立的零遗忘;(5)基于结果的Sigmoid元路由器,根据经验发现的领域组合目标进行训练,选择性地加权堆栈,从而实现跨领域组合。论文还进行了两个边界实验:(6)在随机初始化的模型上进行PSN预训练;(7)每个领域的强化学习(DPO/GRPO),验证与SFT后对齐的兼容性。在TinyLlama-1.1B(4个领域,9个堆栈)和Gemma 3 12B IT(5个领域,10个堆栈)上验证,MoE-LoRA实现了比参数匹配的单个LoRA快2.5倍的收敛速度,残差增强突破了单堆栈的上限,并且路由系统恢复了被无门控堆栈累积破坏的生成质量。中心发现:基于结果的路由器发现领域堆栈编码可转移的认知原语(指令遵循清晰度、数值推理、程序逻辑、思维链结构),而不是领域特定的知识,即使在这些堆栈中没有医疗数据,医疗提示也会在97%的情况下路由到聊天+数学堆栈。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在持续学习过程中,如何有效地融合来自多个领域的知识,同时避免灾难性遗忘的问题。现有方法,如微调或单一LoRA适配器,难以在不同领域之间进行知识迁移,并且容易受到新领域数据的影响,导致在先前领域上的性能下降。

核心思路:论文的核心思路是将每个领域的知识封装成一个独立的、冻结的MoE-LoRA堆栈。这些堆栈可以累加地作用于一个共享的、冻结的基础模型之上。通过这种方式,每个领域都可以独立地进行学习,而不会影响其他领域的知识。此外,论文还引入了残差增强、零空间投影和基于结果的元路由等技术,以进一步提高模型的性能和泛化能力。

技术框架:Brainstacks的整体架构包含以下几个主要模块:1) MoE-LoRA堆栈:每个领域对应一个MoE-LoRA堆栈,负责学习该领域的知识。2) 残差增强:通过冻结已训练的堆栈并添加新的堆栈,逐步提升模型的性能。3) 零空间投影:将新堆栈约束到与先前方向正交的子空间,以避免灾难性遗忘。4) 基于结果的元路由器:根据经验发现的领域组合目标,选择性地加权堆栈,实现跨领域组合。5) 冻结的基础模型:所有堆栈都作用于一个共享的、冻结的基础模型之上。

关键创新:Brainstacks最重要的技术创新点在于其模块化的架构和基于结果的元路由。模块化的架构使得每个领域都可以独立地进行学习,而不会影响其他领域的知识。基于结果的元路由则可以根据输入数据的特点,动态地选择合适的堆栈进行组合,从而实现跨领域知识的有效迁移。

关键设计:论文的关键设计包括:1) 使用Shazeer风格的noisy top-2路由的MoE-LoRA,以提高模型的容量和表达能力。2) 使用QLoRA 4位量化和rsLoRA缩放,以减少模型的参数量和计算成本。3) 使用随机SVD进行零空间投影,以避免灾难性遗忘。4) 训练一个基于结果的Sigmoid元路由器,根据经验发现的领域组合目标,选择性地加权堆栈。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoE-LoRA实现了比参数匹配的单个LoRA快2.5倍的收敛速度。残差增强突破了单堆栈的性能上限。基于结果的路由器能够发现领域堆栈编码可转移的认知原语,例如,医疗提示在97%的情况下路由到聊天+数学堆栈,即使这些堆栈中没有医疗数据。

🎯 应用场景

Brainstacks架构可应用于各种需要持续学习和跨领域知识迁移的场景,例如:智能客服、医疗诊断、金融分析等。通过不断学习新的领域知识,并将其与已有的知识进行融合,Brainstacks可以帮助模型更好地理解用户意图,提供更准确、更个性化的服务。此外,该架构还可以用于构建多领域专家系统,将不同领域的专家知识整合到一个模型中,从而实现更强大的问题解决能力。

📄 摘要(原文)

We present Brainstacks, a modular architecture for continual multi-domain fine-tuning of large language models that packages domain expertise as frozen adapter stacks composing additively on a shared frozen base at inference. Five interlocking components: (1) MoE-LoRA with Shazeer-style noisy top-2 routing across all seven transformer projections under QLoRA 4-bit quantization with rsLoRA scaling; (2) an inner loop performing residual boosting by freezing trained stacks and adding new ones; (3) an outer loop training sequential domain-specific stacks with curriculum-ordered dependencies; (4) null-space projection via randomized SVD constraining new stacks to subspaces orthogonal to prior directions, achieving zero forgetting in isolation; (5) an outcome-based sigmoid meta-router trained on empirically discovered domain-combination targets that selectively weights stacks, enabling cross-domain composition. Two boundary experiments: (6) PSN pretraining on a randomly initialized model; (7) per-domain RL (DPO/GRPO) validating compatibility with post-SFT alignment. Validated on TinyLlama-1.1B (4 domains, 9 stacks) and Gemma 3 12B IT (5 domains, 10 stacks), MoE-LoRA achieves 2.5x faster convergence than parameter-matched single LoRA, residual boosting breaks through the single-stack ceiling, and the routed system recovers generation quality destroyed by ungated stack accumulation. The central finding: the outcome-based router discovers that domain stacks encode transferable cognitive primitives (instruction-following clarity, numerical reasoning, procedural logic, chain-of-thought structure) rather than domain-specific knowledge, with medical prompts routing to chat+math stacks in 97% of cases despite zero medical data in those stacks.