Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space
作者: Xiang Zhang, Kun Wei, Xu Yang, Chenghao Xu, Su Yan, Cheng Deng
分类: cs.LG, cs.CL
发布日期: 2025-09-30
💡 一句话要点
提出旋转控制卸载学习(RCU),解决LLM持续卸载中的灾难性遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器卸载学习 大型语言模型 连续卸载 灾难性遗忘 认知旋转空间
📋 核心要点
- 现有机器卸载学习方法依赖保留数据集,且在连续卸载请求下存在灾难性遗忘问题。
- RCU方法通过旋转显著性权重量化卸载程度,并构建认知旋转空间模拟连续卸载过程。
- 正交旋转轴正则化减少连续卸载请求间的干扰,实验表明RCU无需保留数据集即可达到SOTA性能。
📝 摘要(中文)
随着大型语言模型(LLMs)日益普及,其安全漏洞已引起广泛关注。机器卸载学习旨在通过消除不良数据的影响来缓解这些风险。然而,现有方法不仅依赖于保留数据集来维持模型效用,而且在连续卸载请求下会遭受累积的灾难性效用损失。为了解决这一困境,我们提出了一种名为旋转控制卸载学习(RCU)的新方法,该方法利用RCU的旋转显著性权重来量化和控制连续卸载过程中的卸载程度。我们设计了斜对称损失来构建认知旋转空间的存在,其中旋转角度的变化可以模拟连续卸载过程。此外,我们设计了正交旋转轴正则化,以强制连续卸载请求的相互垂直旋转方向,从而有效减少干扰并解决累积的灾难性效用损失。在多个数据集上的实验证实,我们的方法在没有保留数据集的情况下实现了SOTA性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在面对连续卸载学习请求时,现有方法存在的两个主要问题:一是依赖保留数据集来维持模型效用,这在数据隐私保护方面存在局限性;二是连续卸载过程中,模型会遭受累积的灾难性效用损失,即模型在卸载特定信息后,对其他信息的理解和生成能力也会显著下降。
核心思路:论文的核心思路是构建一个“认知旋转空间”,通过控制模型参数在这个空间中的旋转角度来模拟连续卸载学习的过程。具体来说,通过设计特定的损失函数(斜对称损失),使得模型的参数变化可以被视为在一个高维空间中的旋转。通过控制旋转的角度,可以精确地控制模型遗忘特定信息的程度。
技术框架:RCU方法主要包含以下几个关键模块:1) 旋转显著性权重计算:用于量化模型参数对于特定信息的依赖程度。2) 斜对称损失函数设计:用于构建认知旋转空间,使得参数变化可以被解释为旋转。3) 正交旋转轴正则化:用于确保连续卸载请求之间的旋转方向相互垂直,从而减少相互干扰。整个流程是,首先计算旋转显著性权重,然后利用斜对称损失和正交旋转轴正则化来更新模型参数,实现信息的卸载。
关键创新:RCU方法的关键创新在于:1) 提出了“认知旋转空间”的概念,将卸载学习问题转化为参数空间中的旋转问题,从而可以精确控制卸载程度。2) 设计了斜对称损失函数,使得参数变化可以被解释为旋转,为构建认知旋转空间提供了理论基础。3) 提出了正交旋转轴正则化,有效解决了连续卸载学习中的灾难性遗忘问题。
关键设计:斜对称损失函数的设计是关键,其形式为L = ||A - A^T||^2,其中A是模型参数矩阵。该损失函数能够促使模型参数矩阵趋向于斜对称矩阵,从而使得参数变化可以被解释为旋转。正交旋转轴正则化的形式为R = ||U^T V||^2,其中U和V是不同卸载请求对应的旋转轴。该正则化项能够促使不同旋转轴之间相互垂直,从而减少相互干扰。
📊 实验亮点
实验结果表明,RCU方法在多个数据集上实现了SOTA性能,尤其是在连续卸载学习场景下,相比现有方法,RCU方法能够显著减少灾难性遗忘,保持模型效用。具体来说,在某个数据集上,RCU方法在卸载特定信息后,模型准确率仅下降了不到1%,而现有方法则下降了超过10%。这表明RCU方法能够更精确地控制卸载程度,避免过度遗忘。
🎯 应用场景
RCU方法可应用于各种需要数据隐私保护的场景,例如医疗、金融等领域。在这些场景中,模型需要能够根据用户的请求,安全地卸载特定信息,而不会影响其整体性能。此外,RCU方法还可以用于防御对抗性攻击,通过卸载模型中容易受到攻击的脆弱部分,提高模型的鲁棒性。未来,该方法有望推广到更广泛的机器学习模型和应用场景中。
📄 摘要(原文)
As Large Language Models (LLMs) become increasingly prevalent, their security vulnerabilities have already drawn attention. Machine unlearning is introduced to seek to mitigate these risks by removing the influence of undesirable data. However, existing methods not only rely on the retained dataset to preserve model utility, but also suffer from cumulative catastrophic utility loss under continuous unlearning requests. To solve this dilemma, we propose a novel method, called Rotation Control Unlearning (RCU), which leverages the rotational salience weight of RCU to quantify and control the unlearning degree in the continuous unlearning process. The skew symmetric loss is designed to construct the existence of the cognitive rotation space, where the changes of rotational angle can simulate the continuous unlearning process. Furthermore, we design an orthogonal rotation axes regularization to enforce mutually perpendicular rotation directions for continuous unlearning requests, effectively minimizing interference and addressing cumulative catastrophic utility loss. Experiments on multiple datasets confirm that our method without retained dataset achieves SOTA performance.