ELLA: Efficient Lifelong Learning for Adapters in Large Language Models
作者: Shristi Das Biswas, Yue Zhang, Anwesan Pal, Radhika Bhargava, Kaushik Roy
分类: cs.LG
发布日期: 2026-01-05
💡 一句话要点
提出ELLA框架以解决大语言模型的持续学习遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大语言模型 知识迁移 子空间去相关化 模型适应性 内存优化 计算效率
📋 核心要点
- 现有方法在持续学习中容易导致灾难性遗忘,重放方法不切实际且侵犯隐私,正交方法在规模上表现不佳。
- ELLA框架通过选择性子空间去相关化,惩罚高能量方向的对齐,保留低能量残余子空间以促进任务迁移。
- 在三个基准测试中,ELLA实现了最先进的持续学习性能,相对准确率提升高达9.6%,内存占用减少35倍。
📝 摘要(中文)
大语言模型(LLMs)在持续学习(CL)环境中适应新任务时,面临严重的灾难性遗忘。现有方法存在根本性局限:基于重放的方法不切实际且侵犯隐私,而严格的正交方法在规模上崩溃。本文提出ELLA,一个基于选择性子空间去相关化原则的训练框架。ELLA通过明确表征过去更新的结构,惩罚高能量、任务特定方向的对齐,同时保留低能量残余子空间的自由度,以促进迁移。该机制对应于一种各向异性收缩算子,能够限制干扰,且无论任务序列长度如何,惩罚均为内存和计算常数。ELLA无需数据重放、架构扩展,且存储需求极小。实验证明,ELLA在三个流行基准上实现了最先进的CL性能,相对准确率提升高达9.6%,且内存占用减少35倍。
🔬 方法详解
问题定义:本文旨在解决大语言模型在持续学习中面临的灾难性遗忘问题。现有方法如重放和正交方法在实际应用中存在局限,无法有效应对新任务的适应性。
核心思路:ELLA框架的核心思路是选择性子空间去相关化,允许任务间的重叠,同时惩罚高能量方向的对齐,以保持低能量残余子空间的自由度,从而促进知识迁移。
技术框架:ELLA的整体架构包括一个轻量级的正则化器,作用于单个聚合更新矩阵。该框架通过控制任务更新的对齐程度,来限制干扰并优化模型性能。
关键创新:ELLA的主要创新在于其各向异性收缩算子,能够在不需要数据重放和架构扩展的情况下,有效限制干扰并保持内存和计算的常数开销。这与传统方法的根本区别在于对任务间重叠的处理方式。
关键设计:ELLA的设计包括对更新矩阵的正则化,确保高能量方向的对齐受到惩罚,同时保留低能量方向的自由度。该设计使得ELLA在不同任务序列长度下均能保持稳定性能。
🖼️ 关键图片
📊 实验亮点
ELLA在三个流行基准上实现了最先进的持续学习性能,相对准确率提升高达9.6%,且内存占用减少35倍。这些结果表明,ELLA在保持模型性能的同时,显著降低了资源消耗,展示了其在实际应用中的优势。
🎯 应用场景
ELLA框架在大语言模型的持续学习中具有广泛的应用潜力,尤其适用于需要频繁适应新任务的场景,如对话系统、个性化推荐和智能助手等。其高效的内存管理和计算性能使得在资源受限的环境中也能实现有效的模型更新,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large Language Models (LLMs) suffer severe catastrophic forgetting when adapted sequentially to new tasks in a continual learning (CL) setting. Existing approaches are fundamentally limited: replay-based methods are impractical and privacy-violating, while strict orthogonality-based methods collapse under scale: each new task is projected onto an orthogonal complement, progressively reducing the residual degrees of freedom and eliminating forward transfer by forbidding overlap in shared representations. In this work, we introduce ELLA, a training framework built on the principle of selective subspace de-correlation. Rather than forbidding all overlap, ELLA explicitly characterizes the structure of past updates and penalizes alignments along their high-energy, task-specific directions, while preserving freedom in the low-energy residual subspaces to enable transfer. Formally, this is realized via a lightweight regularizer on a single aggregated update matrix. We prove this mechanism corresponds to an anisotropic shrinkage operator that bounds interference, yielding a penalty that is both memory- and compute-constant regardless of task sequence length. ELLA requires no data replay, no architectural expansion, and negligible storage. Empirically, it achieves state-of-the-art CL performance on three popular benchmarks, with relative accuracy gains of up to $9.6\%$ and a $35\times$ smaller memory footprint. Further, ELLA scales robustly across architectures and actively enhances the model's zero-shot generalization performance on unseen tasks, establishing a principled and scalable solution for constructive lifelong LLM adaptation.