ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs

📄 arXiv: 2603.01792v1 📥 PDF

作者: Xunlei Chen, Jinyu Guo, Yuang Li, Zhaokun Wang, Yi Gong, Jie Zou, Jiwei Wei, Wenhong Tian

分类: cs.CL, cs.AI

发布日期: 2026-03-02

备注: Accepted at The 40th Annual AAAI Conference on Artificial Intelligence (AAAI 2026)


💡 一句话要点

提出ALTER框架,通过非对称LoRA和token熵引导实现LLM高效可控的知识遗忘

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识遗忘 低秩适应 LoRA Token熵 非对称学习 模型安全 模型合规

📋 核心要点

  1. 现有LLM知识遗忘方法面临知识纠缠和计算开销大的挑战,难以在保证遗忘效果的同时避免对模型其他能力的损害。
  2. ALTER框架通过非对称LoRA结构和token熵引导,实现对特定token的隔离和遗忘,从而降低计算成本并减少副作用。
  3. 实验表明,ALTER在多个基准测试中达到SOTA遗忘性能,遗忘质量超过95%,同时保留了超过90%的模型效用。

📝 摘要(中文)

大型语言模型(LLMs)已经发展到包含跨多个领域的广泛知识。然而,控制LLMs不应该知道什么是重要的,以确保对齐,从而安全使用。由于知识保留和遗忘之间的模糊界限,LLMs中有效的知识遗忘是困难的。持续的多领域训练造成的纠缠参数空间加剧了这一挑战,通常导致附带损害,尤其是在激进的遗忘策略下。此外,优化具有数十亿参数的SOTA模型所需的计算开销构成了额外的障碍。在这项工作中,我们提出了ALTER,一个轻量级的LLMs遗忘框架,以解决知识纠缠和遗忘效率的挑战。ALTER通过两个阶段运行:(I)高熵token被捕获并通过LoRA中的共享A矩阵学习,然后(II)一个非对称LoRA架构,通过参数隔离和目标子域内的遗忘token来实现指定的遗忘目标。作为通过非对称框架中token级隔离实现遗忘的新研究方向。ALTER在TOFU、WMDP和MUSE基准测试中实现了SOTA性能,具有超过95%的遗忘质量,并通过保留基础token显示出最小的副作用。通过将遗忘与LLMs的数十亿参数解耦,该框架提供了出色的效率,同时保留了超过90%的模型效用,超过了47.8-83.6%的基线保留率。

🔬 方法详解

问题定义:现有LLM的知识遗忘方法,由于模型参数的纠缠性,难以精确地遗忘特定知识,容易造成对模型其他能力的损害(即“附带损害”)。同时,直接对大型模型进行微调进行遗忘,计算开销巨大,效率低下。

核心思路:ALTER框架的核心思路是通过token级别的隔离来实现知识遗忘。具体来说,首先识别出需要遗忘的token(通过token熵衡量),然后通过非对称的LoRA结构,将这些token对应的参数与模型主体参数隔离,从而实现对这些token的精确遗忘,同时减少对模型其他部分的影响。

技术框架:ALTER框架主要包含两个阶段: 1. 高熵Token捕获与学习阶段:利用LoRA的共享A矩阵学习高熵token,这些token代表需要遗忘的知识。 2. 非对称LoRA遗忘阶段:构建非对称LoRA架构,通过参数隔离和遗忘目标子域内的token来实现指定的遗忘目标。

关键创新:ALTER的关键创新在于: 1. 非对称LoRA结构:通过非对称的LoRA结构,实现了对特定token的参数隔离,从而可以精确地遗忘这些token,同时减少对模型其他部分的影响。 2. Token熵引导:利用token熵来识别需要遗忘的token,从而可以更加精确地定位需要遗忘的知识。

关键设计: 1. LoRA的选择:选择LoRA作为微调方法,是因为LoRA可以在不修改原始模型参数的情况下,通过引入少量参数来实现知识遗忘,从而降低计算开销。 2. 非对称LoRA的实现:非对称LoRA通过对LoRA的A矩阵和B矩阵进行不同的处理来实现。具体来说,A矩阵用于学习需要遗忘的token,而B矩阵则用于遗忘这些token。通过这种方式,可以实现对特定token的精确遗忘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ALTER在TOFU、WMDP和MUSE基准测试中取得了SOTA性能,遗忘质量超过95%,同时保留了超过90%的模型效用。相比于基线方法,ALTER在模型效用保留率上提升了47.8%-83.6%,证明了其在知识遗忘方面的有效性和高效性。

🎯 应用场景

ALTER框架可应用于多种场景,例如: 1. 模型合规性:遗忘模型中包含的敏感信息,以符合法律法规要求。 2. 模型个性化:根据用户需求,遗忘模型中不需要的知识,从而实现模型个性化。 3. 模型更新:遗忘模型中过时的知识,从而实现模型更新。该研究为LLM的知识遗忘提供了一种高效且可控的解决方案,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a LLMs should not know is important for ensuring alignment and thus safe use. However, effective unlearning in LLMs is difficult due to the fuzzy boundary between knowledge retention and forgetting. This challenge is exacerbated by entangled parameter spaces from continuous multi-domain training, often resulting in collateral damage, especially under aggressive unlearning strategies. Furthermore, the computational overhead required to optimize State-of-the-Art (SOTA) models with billions of parameters poses an additional barrier. In this work, we present ALTER, a lightweight unlearning framework for LLMs to address both the challenges of knowledge entanglement and unlearning efficiency. ALTER operates through two phases: (I) high entropy tokens are captured and learned via the shared A matrix in LoRA, followed by (II) an asymmetric LoRA architecture that achieves a specified forgetting objective by parameter isolation and unlearning tokens within the target subdomains. Serving as a new research direction for achieving unlearning via token-level isolation in the asymmetric framework. ALTER achieves SOTA performance on TOFU, WMDP, and MUSE benchmarks with over 95% forget quality and shows minimal side effects through preserving foundational tokens. By decoupling unlearning from LLMs' billion-scale parameters, this framework delivers excellent efficiency while preserving over 90% of model utility, exceeding baseline preservation rates of 47.8-83.6%.