Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

作者: Mohammad R. Abu Ayyash

分类: cs.CL, cs.AI

发布日期: 2026-04-01

备注: 26 pages, 13 figures, 4 tables

💡 一句话要点

Brainstacks：基于冻结MoE-LoRA堆栈的跨领域认知能力持续LLM学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 跨领域学习 MoE-LoRA 知识迁移 元路由

📋 核心要点

现有持续学习方法难以在大型语言模型中有效融合多领域知识，导致灾难性遗忘和性能下降。
Brainstacks通过冻结的MoE-LoRA堆栈，结合残差增强、零空间投影和基于结果的元路由，实现跨领域知识的有效组合和迁移。
实验表明，Brainstacks在TinyLlama-1.1B和Gemma 3 12B IT模型上，实现了更快的收敛速度、更高的生成质量和可转移的认知能力。

📝 摘要（中文）

Brainstacks是一种模块化架构，用于大型语言模型的持续多领域微调。它将领域知识封装为冻结的适配器堆栈，这些堆栈在推理时以累加方式作用于共享的冻结基础模型之上。该架构包含五个互锁的组件：（1）MoE-LoRA，在QLoRA 4位量化和rsLoRA缩放下的所有七个Transformer投影中使用Shazeer风格的noisy top-2路由；（2）通过冻结已训练的堆栈并添加新的堆栈来执行残差增强的内部循环；（3）使用课程顺序依赖关系训练顺序领域特定堆栈的外部循环；（4）通过随机SVD进行零空间投影，将新堆栈约束到与先前方向正交的子空间，从而实现孤立的零遗忘；（5）基于结果的Sigmoid元路由器，根据经验发现的领域组合目标进行训练，选择性地加权堆栈，从而实现跨领域组合。论文还进行了两个边界实验：（6）在随机初始化的模型上进行PSN预训练；（7）每个领域的强化学习（DPO/GRPO），验证与SFT后对齐的兼容性。在TinyLlama-1.1B（4个领域，9个堆栈）和Gemma 3 12B IT（5个领域，10个堆栈）上验证，MoE-LoRA实现了比参数匹配的单个LoRA快2.5倍的收敛速度，残差增强突破了单堆栈的上限，并且路由系统恢复了被无门控堆栈累积破坏的生成质量。中心发现：基于结果的路由器发现领域堆栈编码可转移的认知原语（指令遵循清晰度、数值推理、程序逻辑、思维链结构），而不是领域特定的知识，即使在这些堆栈中没有医疗数据，医疗提示也会在97%的情况下路由到聊天+数学堆栈。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在持续学习过程中，如何有效地融合来自多个领域的知识，同时避免灾难性遗忘的问题。现有方法，如微调或单一LoRA适配器，难以在不同领域之间进行知识迁移，并且容易受到新领域数据的影响，导致在先前领域上的性能下降。

核心思路：论文的核心思路是将每个领域的知识封装成一个独立的、冻结的MoE-LoRA堆栈。这些堆栈可以累加地作用于一个共享的、冻结的基础模型之上。通过这种方式，每个领域都可以独立地进行学习，而不会影响其他领域的知识。此外，论文还引入了残差增强、零空间投影和基于结果的元路由等技术，以进一步提高模型的性能和泛化能力。

技术框架：Brainstacks的整体架构包含以下几个主要模块：1) MoE-LoRA堆栈：每个领域对应一个MoE-LoRA堆栈，负责学习该领域的知识。2) 残差增强：通过冻结已训练的堆栈并添加新的堆栈，逐步提升模型的性能。3) 零空间投影：将新堆栈约束到与先前方向正交的子空间，以避免灾难性遗忘。4) 基于结果的元路由器：根据经验发现的领域组合目标，选择性地加权堆栈，实现跨领域组合。5) 冻结的基础模型：所有堆栈都作用于一个共享的、冻结的基础模型之上。

关键创新：Brainstacks最重要的技术创新点在于其模块化的架构和基于结果的元路由。模块化的架构使得每个领域都可以独立地进行学习，而不会影响其他领域的知识。基于结果的元路由则可以根据输入数据的特点，动态地选择合适的堆栈进行组合，从而实现跨领域知识的有效迁移。

关键设计：论文的关键设计包括：1) 使用Shazeer风格的noisy top-2路由的MoE-LoRA，以提高模型的容量和表达能力。2) 使用QLoRA 4位量化和rsLoRA缩放，以减少模型的参数量和计算成本。3) 使用随机SVD进行零空间投影，以避免灾难性遗忘。4) 训练一个基于结果的Sigmoid元路由器，根据经验发现的领域组合目标，选择性地加权堆栈。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MoE-LoRA实现了比参数匹配的单个LoRA快2.5倍的收敛速度。残差增强突破了单堆栈的性能上限。基于结果的路由器能够发现领域堆栈编码可转移的认知原语，例如，医疗提示在97%的情况下路由到聊天+数学堆栈，即使这些堆栈中没有医疗数据。

🎯 应用场景

Brainstacks架构可应用于各种需要持续学习和跨领域知识迁移的场景，例如：智能客服、医疗诊断、金融分析等。通过不断学习新的领域知识，并将其与已有的知识进行融合，Brainstacks可以帮助模型更好地理解用户意图，提供更准确、更个性化的服务。此外，该架构还可以用于构建多领域专家系统，将不同领域的专家知识整合到一个模型中，从而实现更强大的问题解决能力。

📄 摘要（原文）

We present Brainstacks, a modular architecture for continual multi-domain fine-tuning of large language models that packages domain expertise as frozen adapter stacks composing additively on a shared frozen base at inference. Five interlocking components: (1) MoE-LoRA with Shazeer-style noisy top-2 routing across all seven transformer projections under QLoRA 4-bit quantization with rsLoRA scaling; (2) an inner loop performing residual boosting by freezing trained stacks and adding new ones; (3) an outer loop training sequential domain-specific stacks with curriculum-ordered dependencies; (4) null-space projection via randomized SVD constraining new stacks to subspaces orthogonal to prior directions, achieving zero forgetting in isolation; (5) an outcome-based sigmoid meta-router trained on empirically discovered domain-combination targets that selectively weights stacks, enabling cross-domain composition. Two boundary experiments: (6) PSN pretraining on a randomly initialized model; (7) per-domain RL (DPO/GRPO) validating compatibility with post-SFT alignment. Validated on TinyLlama-1.1B (4 domains, 9 stacks) and Gemma 3 12B IT (5 domains, 10 stacks), MoE-LoRA achieves 2.5x faster convergence than parameter-matched single LoRA, residual boosting breaks through the single-stack ceiling, and the routed system recovers generation quality destroyed by ungated stack accumulation. The central finding: the outcome-based router discovers that domain stacks encode transferable cognitive primitives (instruction-following clarity, numerical reasoning, procedural logic, chain-of-thought structure) rather than domain-specific knowledge, with medical prompts routing to chat+math stacks in 97% of cases despite zero medical data in those stacks.

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理