Osmosis Distillation: Model Hijacking with the Fewest Samples
作者: Yuchen Shi, Huajie Chen, Heng Xu, Zhiquan Liu, Jialiang Shen, Chi Liu, Shuai Zhou, Tianqing Zhu, Wanlei Zhou
分类: cs.CR, cs.LG
发布日期: 2026-03-05
💡 一句话要点
提出Osmosis Distillation攻击,利用少量样本实现模型劫持。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型劫持 迁移学习 数据集蒸馏 对抗攻击 安全漏洞
📋 核心要点
- 现有迁移学习方法在使用合成数据集时存在安全漏洞,攻击者可利用少量中毒样本进行模型劫持。
- 提出Osmosis Distillation (OD)攻击,通过精心构造的少量样本,在保持模型原有功能的同时,控制模型在特定任务上的行为。
- 实验证明,OD攻击能以高成功率劫持模型,且在多种模型架构上有效,突显了使用第三方合成数据集的潜在风险。
📝 摘要(中文)
迁移学习旨在利用预训练模型的知识,以有限的数据和计算资源解决新任务。同时,数据集蒸馏技术通过合成紧凑的数据集来保留原始大型数据集的关键信息。因此,迁移学习和数据集蒸馏的结合在评估中表现出良好的性能。然而,在使用数据集蒸馏方法生成的合成数据集进行迁移学习时,仍然存在一个不可忽视的安全威胁,即攻击者可以使用合成数据集中的少量中毒样本执行模型劫持攻击。为了揭示这一威胁,我们提出了一种新的模型劫持策略——Osmosis Distillation (OD)攻击,该策略旨在用最少的样本攻击深度学习模型。在各种数据集上的综合评估表明,OD攻击在隐藏任务中获得了较高的攻击成功率,同时在原始任务中保持了较高的模型效用。此外,蒸馏渗透集能够跨多种模型架构进行模型劫持,从而在迁移学习中实现具有相当攻击性能和模型效用的模型劫持。我们认为,必须提高在使用第三方合成数据集进行迁移学习时的意识。
🔬 方法详解
问题定义:论文旨在解决迁移学习中,使用数据集蒸馏生成的合成数据集进行模型微调时,模型容易受到恶意攻击的问题。现有方法缺乏对这种攻击的有效防御,攻击者可以通过在合成数据集中注入少量恶意样本,就能控制模型的行为,实现模型劫持。
核心思路:论文的核心思路是设计一种高效的攻击方法,即Osmosis Distillation (OD) 攻击,该方法能够利用最少数量的恶意样本,在不显著降低模型在原始任务上的性能的前提下,使模型在目标任务上表现出攻击者期望的行为。这种攻击依赖于精心设计的对抗样本,这些样本能够“渗透”到模型的学习过程中,从而改变模型的决策边界。
技术框架:OD攻击的技术框架主要包括以下几个步骤:1)选择目标模型和任务;2)利用数据集蒸馏技术生成合成数据集;3)在合成数据集中注入少量精心设计的恶意样本;4)使用包含恶意样本的合成数据集对目标模型进行微调;5)评估模型在原始任务和目标任务上的性能,验证攻击的有效性。
关键创新:OD攻击的关键创新在于其高效性和隐蔽性。它能够使用极少量的恶意样本实现模型劫持,同时对原始任务的性能影响很小,使得攻击难以被检测。此外,该攻击方法具有较强的泛化能力,可以跨多种模型架构进行攻击。
关键设计:OD攻击的关键设计包括:1)恶意样本的生成策略,需要保证恶意样本能够有效地影响模型的学习过程,同时避免引起模型的过度拟合;2)恶意样本的注入比例,需要在攻击成功率和模型性能之间进行权衡;3)目标任务的选择,需要选择与原始任务具有一定相关性,但又能够被攻击者控制的任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OD攻击能够以极高的成功率劫持模型,即使只注入少量恶意样本。攻击后的模型在目标任务上表现出攻击者期望的行为,同时在原始任务上的性能下降很小。该攻击在不同的模型架构上均有效,证明了其泛化能力和潜在威胁。
🎯 应用场景
该研究揭示了迁移学习中合成数据集的安全风险,可应用于评估和改进现有迁移学习框架的安全性。研究结果有助于开发更鲁棒的防御机制,防止模型被恶意劫持,保障人工智能系统的可靠性和安全性。此外,该研究也提醒开发者在使用第三方合成数据集时需要格外谨慎。
📄 摘要(原文)
Transfer learning is devised to leverage knowledge from pre-trained models to solve new tasks with limited data and computational resources. Meanwhile, dataset distillation has emerged to synthesize a compact dataset that preserves critical information from the original large dataset. Therefore, a combination of transfer learning and dataset distillation offers promising performance in evaluations. However, a non-negligible security threat remains undiscovered in transfer learning using synthetic datasets generated by dataset distillation methods, where an adversary can perform a model hijacking attack with only a few poisoned samples in the synthetic dataset. To reveal this threat, we propose Osmosis Distillation (OD) attack, a novel model hijacking strategy that targets deep learning models using the fewest samples. Comprehensive evaluations on various datasets demonstrate that the OD attack attains high attack success rates in hidden tasks while preserving high model utility in original tasks. Furthermore, the distilled osmosis set enables model hijacking across diverse model architectures, allowing model hijacking in transfer learning with considerable attack performance and model utility. We argue that awareness of using third-party synthetic datasets in transfer learning must be raised.