Memory Bank Compression for Continual Adaptation of Large Language Models

作者: Thomas Katraouras, Dimitrios Rafailidis

分类: cs.LG, cs.CL

发布日期: 2026-01-02

备注: Accepted to the 41st ACM/SIGAPP Symposium on Applied Computing (SAC '26)

🔗 代码/项目: GITHUB

💡 一句话要点

提出MBC模型，通过压缩记忆库实现大语言模型的持续自适应，显著降低存储成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大型语言模型 记忆库压缩 码本优化 低秩自适应

📋 核心要点

现有持续学习方法在更新大型语言模型时，面临计算成本高和灾难性遗忘的问题，记忆增强方法虽能缓解，但记忆库会无限增长。
论文提出MBC模型，通过码本优化策略压缩记忆库，并引入在线重置机制防止码本崩溃，保证学习的稳定性。
实验结果表明，MBC在保持高保留精度的同时，能将记忆库大小降低到现有最佳基线的0.3%，显著降低存储成本。

📝 摘要（中文）

大型语言模型（LLM）已成为许多日常应用的基础。然而，随着数据演变，它们的知识迅速过时。持续学习旨在用新信息更新LLM，而不擦除先前获得的知识。虽然像完全微调这样的方法可以整合新数据，但它们计算成本高昂，并且容易发生灾难性遗忘，即先前知识被覆盖。记忆增强方法通过为LLM配备记忆库来解决这个问题，记忆库是一个外部记忆模块，用于存储信息以供将来使用。然而，这些方法面临一个关键限制，特别是在大规模数据流到达的真实场景中，记忆库不断增长。在本文中，我们提出了一种名为MBC的模型，该模型通过在线自适应学习期间的码本优化策略来压缩记忆库。为了确保稳定的学习，我们还引入了一种在线重置机制，以防止码本崩溃。此外，我们在LLM的注意力层中采用键值低秩自适应，从而能够有效利用压缩的记忆表示。在基准问答数据集上的实验表明，与最具竞争力的基线相比，MBC将记忆库大小减少到0.3%，同时在在线自适应学习期间保持较高的保留精度。我们的代码已在https://github.com/Thomkat/MBC上公开。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在持续学习过程中，由于不断积累新知识而导致的记忆库无限增长问题。现有记忆增强方法虽然能缓解灾难性遗忘，但随着数据流的持续输入，记忆库的存储成本变得难以承受。

核心思路：论文的核心思路是通过压缩记忆库来降低存储成本，同时保持模型的性能。具体来说，采用码本优化策略，将相似的记忆条目聚类到码本中，从而减少需要存储的记忆总量。此外，为了防止码本在训练过程中崩溃，引入了在线重置机制。

技术框架：MBC模型主要包含三个核心模块：1) 记忆库：存储历史数据的信息；2) 码本压缩模块：通过码本优化策略压缩记忆库；3) 键值低秩自适应（Key-Value Low-Rank Adaptation）：在LLM的注意力层中高效利用压缩的记忆表示。整体流程是，新数据到来时，首先更新记忆库，然后使用码本压缩模块压缩记忆库，最后通过键值低秩自适应将压缩后的记忆信息融入到LLM中。

关键创新：论文的关键创新在于提出了基于码本优化的记忆库压缩方法，以及在线重置机制。与现有方法相比，MBC能够在保证模型性能的同时，显著降低记忆库的存储成本。此外，键值低秩自适应的使用，使得压缩后的记忆表示能够被高效地利用。

关键设计：码本优化策略的具体实现细节未知，论文中提到在线重置机制用于防止码本崩溃，但具体实现方式未知。键值低秩自适应是一种参数高效的微调方法，具体参数设置未知。损失函数的设计目标是平衡新知识的学习和旧知识的保留，具体形式未知。

📊 实验亮点

实验结果表明，MBC模型在基准问答数据集上，能够将记忆库大小降低到现有最佳基线的0.3%，同时保持较高的保留精度。这意味着在实际应用中，可以显著降低存储成本，而不会牺牲模型的性能。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于需要持续学习的各种大型语言模型应用场景，例如在线客服、智能助手、知识图谱更新等。通过降低记忆库的存储成本，可以使得这些应用能够更经济高效地适应不断变化的数据环境，并保持长期性能。

📄 摘要（原文）

Large Language Models (LLMs) have become a mainstay for many everyday applications. However, as data evolve their knowledge quickly becomes outdated. Continual learning aims to update LLMs with new information without erasing previously acquired knowledge. Although methods such as full fine-tuning can incorporate new data, they are computationally expensive and prone to catastrophic forgetting, where prior knowledge is overwritten. Memory-augmented approaches address this by equipping LLMs with a memory bank, that is an external memory module which stores information for future use. However, these methods face a critical limitation, in particular, the memory bank constantly grows in the real-world scenario when large-scale data streams arrive. In this paper, we propose MBC, a model that compresses the memory bank through a codebook optimization strategy during online adaptation learning. To ensure stable learning, we also introduce an online resetting mechanism that prevents codebook collapse. In addition, we employ Key-Value Low-Rank Adaptation in the attention layers of the LLM, enabling efficient utilization of the compressed memory representations. Experiments with benchmark question-answering datasets demonstrate that MBC reduces the memory bank size to 0.3% when compared against the most competitive baseline, while maintaining high retention accuracy during online adaptation learning. Our code is publicly available at https://github.com/Thomkat/MBC.

Memory Bank Compression for Continual Adaptation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册