OFMU: Optimization-Driven Framework for Machine Unlearning
作者: Sadia Asif, Mohammad Mohammadi Amiri
分类: cs.LG, cs.AI
发布日期: 2025-09-26
备注: Under review at ICLR 2026
💡 一句话要点
提出OFMU:一种优化驱动的机器学习遗忘框架,提升遗忘效果和模型效用。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器学习遗忘 双层优化 梯度解耦 模型效用 隐私保护
📋 核心要点
- 现有机器学习遗忘方法常采用标量化多目标优化,易导致训练不稳定和模型效用降低,源于遗忘和保留目标梯度冲突。
- OFMU采用基于惩罚的双层优化框架,通过分层结构优先考虑遗忘,并利用相似性感知惩罚使梯度去相关。
- 实验证明,OFMU在视觉和语言基准测试中,遗忘效果和保留效用均优于现有方法,并提供了收敛性理论保证。
📝 摘要(中文)
大型语言模型在敏感应用中部署时,需要具备遗忘特定知识的能力,例如用户请求、受版权保护的材料或过时信息,而无需从头开始重新训练,以确保法规遵从性、用户隐私和安全性。这项任务,被称为机器学习遗忘,旨在消除目标数据的影响(遗忘),同时保持对剩余数据的性能(保留)。一种常见的方法是将此问题表述为多目标问题,并通过标量化将其简化为单目标问题,其中遗忘和保留损失使用加权和组合。然而,这通常会导致不稳定的训练动态和降低的模型效用,因为梯度方向冲突。为了解决这些挑战,我们提出了OFMU,一种基于惩罚的双层优化框架,通过分层结构显式地优先考虑遗忘,同时保留保留。我们的方法通过内部最大化步骤强制遗忘,该步骤包含一个感知相似性的惩罚,以使遗忘和保留目标的梯度去相关,并通过外部最小化步骤恢复效用。为了确保可扩展性,我们开发了一种具有可证明收敛保证的双循环算法,无论是在凸还是非凸情况下。我们进一步提供了收敛速度的严格理论分析,并表明我们的方法与先前的方法相比,在遗忘效果和模型效用之间实现了更好的权衡。跨视觉和语言基准的广泛实验表明,OFMU在遗忘效果和保留效用方面始终优于现有的遗忘方法。
🔬 方法详解
问题定义:论文旨在解决机器学习模型在需要遗忘特定数据时,如何高效且有效地移除这些数据的影响,同时尽可能保留模型在剩余数据上的性能。现有方法,特别是基于标量化的多目标优化方法,容易因为遗忘和保留目标之间的梯度冲突而导致训练不稳定,最终影响模型的效用。
核心思路:OFMU的核心思路是通过双层优化框架显式地优先考虑遗忘。内层优化专注于最大化遗忘损失,并引入相似性感知惩罚来解耦遗忘和保留目标的梯度,从而更彻底地移除目标数据的影响。外层优化则致力于最小化保留损失,以恢复模型的效用。这种分层结构确保了遗忘过程的优先性,同时兼顾了模型的整体性能。
技术框架:OFMU采用双层优化框架。首先,在内层循环中,通过最大化遗忘损失并施加相似性感知惩罚,来强制模型遗忘目标数据。然后,在外层循环中,通过最小化保留损失,来恢复模型在剩余数据上的性能。整个框架通过一个两循环算法实现,该算法具有可证明的收敛性,适用于凸和非凸优化场景。
关键创新:OFMU的关键创新在于其基于惩罚的双层优化框架,该框架显式地优先考虑遗忘,并通过相似性感知惩罚来解耦遗忘和保留目标的梯度。与现有方法相比,OFMU能够更有效地移除目标数据的影响,同时更好地保留模型的效用。此外,该方法还提供了收敛速度的严格理论分析。
关键设计:OFMU的关键设计包括:1) 相似性感知惩罚项,用于解耦遗忘和保留目标的梯度;2) 双层优化框架,确保遗忘的优先性;3) 两循环算法,实现高效的优化过程;4) 针对凸和非凸场景的收敛性分析。具体的损失函数和惩罚项的选择需要根据具体的应用场景进行调整。
📊 实验亮点
实验结果表明,OFMU在遗忘效果和保留效用方面均优于现有方法。在视觉和语言基准测试中,OFMU能够更彻底地移除目标数据的影响,同时更好地保留模型在剩余数据上的性能。论文还提供了收敛速度的严格理论分析,证明了OFMU的有效性和可靠性。具体性能提升数据未知,需要在论文中查找。
🎯 应用场景
OFMU在需要保护用户隐私、遵守法规或处理过时信息的场景中具有广泛的应用前景。例如,在大型语言模型中,可以用于移除用户的敏感请求、受版权保护的材料或不准确的知识。此外,该方法还可以应用于联邦学习等分布式学习场景,以实现对特定参与者数据的遗忘,从而提高系统的安全性和可靠性。未来,OFMU有望成为构建安全、可靠和负责任的AI系统的关键技术。
📄 摘要(原文)
Large language models deployed in sensitive applications increasingly require the ability to unlearn specific knowledge, such as user requests, copyrighted materials, or outdated information, without retraining from scratch to ensure regulatory compliance, user privacy, and safety. This task, known as machine unlearning, aims to remove the influence of targeted data (forgetting) while maintaining performance on the remaining data (retention). A common approach is to formulate this as a multi-objective problem and reduce it to a single-objective problem via scalarization, where forgetting and retention losses are combined using a weighted sum. However, this often results in unstable training dynamics and degraded model utility due to conflicting gradient directions. To address these challenges, we propose OFMU, a penalty-based bi-level optimization framework that explicitly prioritizes forgetting while preserving retention through a hierarchical structure. Our method enforces forgetting via an inner maximization step that incorporates a similarity-aware penalty to decorrelate the gradients of the forget and retention objectives, and restores utility through an outer minimization step. To ensure scalability, we develop a two-loop algorithm with provable convergence guarantees under both convex and non-convex regimes. We further provide a rigorous theoretical analysis of convergence rates and show that our approach achieves better trade-offs between forgetting efficacy and model utility compared to prior methods. Extensive experiments across vision and language benchmarks demonstrate that OFMU consistently outperforms existing unlearning methods in both forgetting efficacy and retained utility.