Backdoor Unlearning by Linear Task Decomposition

📄 arXiv: 2510.14845v1 📥 PDF

作者: Amel Abdelraheem, Alessandro Favero, Gerome Bovet, Pascal Frossard

分类: cs.LG, cs.CV

发布日期: 2025-10-16


💡 一句话要点

提出基于线性任务分解的后门攻击解学习方法,有效移除模型后门并保持模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门攻击 解学习 线性任务分解 模型安全 对抗性攻击 深度学习 模型鲁棒性

📋 核心要点

  1. 现有后门防御方法依赖代价高昂的微调,影响模型在其他任务上的性能,缺乏通用性。
  2. 该论文提出一种基于线性任务分解的解学习方法,通过分离后门任务与其他良性任务,实现精准移除。
  3. 实验表明,该方法在已知攻击下能近乎完美地移除后门,同时保留96%的干净数据准确率。

📝 摘要(中文)

基础模型通过在各种任务上的广泛泛化,彻底改变了计算机视觉领域。然而,它们仍然极易受到对抗性扰动和有针对性的后门攻击的影响。缓解这些漏洞仍然是一个开放的挑战,特别是考虑到模型的大规模性禁止了重新训练以确保安全。现有的后门移除方法依赖于代价高昂的微调来覆盖有害行为,并且常常会降低模型在其他不相关任务上的性能。这就提出了一个问题:是否可以在不损害模型通用能力的情况下移除后门?在这项工作中,我们解决了这个问题,并研究了后门是如何在模型权重空间中编码的,发现它们与其他良性任务是分离的。具体来说,这种分离使得能够隔离和消除后门对模型的影响,同时对干净数据的性能影响最小。基于这一洞察,我们提出了一种简单的解学习方法,该方法利用了这种分离。通过对基于CLIP的模型和常见的对抗性触发器的广泛实验,我们表明,在已知攻击的情况下,我们的方法实现了近似完美的解学习,同时平均保留了96%的干净数据准确率。此外,我们证明了即使在攻击及其存在未知的情况下,我们的方法也能通过使用逆向工程触发器的适当估计成功地解学习后门。总的来说,与目前最先进的防御方法相比,我们的方法始终产生更好的解学习和干净数据准确率的权衡。

🔬 方法详解

问题定义:论文旨在解决深度学习模型中后门攻击的解学习问题。现有方法,如微调,在移除后门的同时,往往会显著降低模型在干净数据上的性能,并且计算成本高昂。因此,如何在不牺牲模型通用能力的前提下有效移除后门是一个关键挑战。

核心思路:论文的核心思路是观察到后门攻击在模型权重空间中与其他良性任务是解耦的。这意味着后门的影响可以被隔离和消除,而不会对模型的其他功能产生重大影响。通过识别并移除与后门相关的权重部分,可以实现有效的解学习。

技术框架:该方法主要包含以下几个步骤:1) 后门检测(可选):如果攻击未知,则需要先进行后门检测,例如通过逆向工程触发器来估计攻击模式。2) 任务分解:将模型权重分解为与后门任务相关的部分和与干净任务相关的部分。这通常通过线性代数方法实现。3) 后门移除:移除或修改与后门任务相关的权重部分。4) 模型评估:评估解学习后的模型在干净数据和后门数据上的性能,以验证解学习的效果。

关键创新:该方法最重要的创新在于发现了后门攻击在模型权重空间中的解耦特性,并利用线性任务分解来实现精准的后门移除。与传统的微调方法相比,该方法避免了对整个模型进行调整,从而显著降低了计算成本,并更好地保留了模型的通用能力。

关键设计:关键设计包括:1) 线性任务分解的具体方法:例如,可以使用主成分分析(PCA)或其他线性降维技术来识别与后门任务相关的权重子空间。2) 后门权重移除策略:可以直接将与后门相关的权重设置为零,或者使用更精细的权重调整方法。3) 评估指标:需要同时评估模型在干净数据上的准确率和在后门数据上的攻击成功率,以衡量解学习的效果。

📊 实验亮点

实验结果表明,在已知攻击的情况下,该方法能够实现近似完美的后门解学习,同时平均保留96%的干净数据准确率。即使在攻击未知的情况下,通过逆向工程触发器进行估计,该方法也能成功解学习后门,并且在解学习效果和干净数据准确率之间取得了比现有方法更好的权衡。这些结果证明了该方法在后门防御方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于各种需要保护深度学习模型免受后门攻击的场景,例如自动驾驶、人脸识别、医疗诊断等。通过该方法,可以在不牺牲模型性能的前提下,有效提高模型的安全性,防止恶意攻击者利用后门控制模型行为。该技术还有助于提升模型的鲁棒性和可信度,促进深度学习技术在安全敏感领域的应用。

📄 摘要(原文)

Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.