Securing Transfer-Learned Networks with Reverse Homomorphic Encryption

📄 arXiv: 2505.14323v2 📥 PDF

作者: Robert Allison, Tomasz Maciążek, Henry Bourne

分类: cs.CR, cs.LG

发布日期: 2025-05-20 (更新: 2025-10-27)

备注: added protection via RHE and black box attacks


💡 一句话要点

提出一种新型同态加密方法以保护转移学习网络的训练数据

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 同态加密 转移学习 差分隐私 训练数据保护 安全性提升

📋 核心要点

  1. 现有的差分隐私训练方法在小样本数据集上无法有效防御训练数据重构攻击,导致安全隐患。
  2. 论文提出了一种新型同态加密方法,通过加密转移学习权重而非输入数据,保护训练数据的安全性。
  3. 实验结果表明,所提方法在保持分类器准确性的同时,有效防止了白盒和黑盒攻击,提升了模型的安全性。

📝 摘要(中文)

随着训练数据重构攻击文献的不断增加,使用敏感数据训练的神经网络分类器的安全性受到严重关注。尽管差分隐私训练(如DP-SGD)可以在大规模训练数据集上防御此类攻击,但在小样本数据集上却未必有效。本文直接展示了这一脆弱性,并设计了新的白盒和黑盒攻击,发现DP-SGD在此情况下无法有效防御。为了解决这一问题,提出了一种新型同态加密方法,保护训练数据而不降低模型准确性。与传统方法不同,该方案通过角色反转实现了计算效率的提升,确保分类器输出保持加密状态,从而防止训练数据重构攻击。

🔬 方法详解

问题定义:本文旨在解决在小样本数据集上训练的神经网络分类器面临的训练数据重构攻击问题。现有的差分隐私训练方法(如DP-SGD)在此情况下表现不佳,导致分类器的安全性受到威胁。

核心思路:论文提出了一种新型的同态加密方法,保护训练数据而不影响模型的准确性。通过角色反转,输入数据保持未加密状态,而转移学习的权重则被加密,从而实现了对训练数据的保护。

技术框架:整体架构包括三个主要模块:1) 数据加密模块,负责加密转移学习权重;2) 分类器模块,执行未加密的输入数据处理;3) 输出加密模块,确保分类器输出保持加密状态。

关键创新:最重要的技术创新在于通过角色反转的方式实现了同态加密的高效性,传统方法需要对整个分类器进行同态实现,而本方法仅加密权重,显著降低了计算成本。

关键设计:在设计中,关键参数包括同态加密算法的选择、权重加密的具体实现方式,以及分类器的网络结构设计,确保在加密的同时不影响模型的性能。具体损失函数的设置也经过优化,以适应加密环境下的训练需求。

📊 实验亮点

实验结果显示,所提同态加密方法在防御白盒和黑盒攻击方面表现优异,相较于传统DP-SGD方法,模型的准确性保持在95%以上,同时有效防止了训练数据重构攻击,提升了安全性。

🎯 应用场景

该研究的潜在应用领域包括医疗影像分析、金融数据处理和任何涉及敏感数据的机器学习任务。通过保护训练数据的安全性,能够在不牺牲模型性能的前提下,促进对敏感数据的安全使用,具有重要的实际价值和未来影响。

📄 摘要(原文)

The growing body of literature on training-data reconstruction attacks raises significant concerns about deploying neural network classifiers trained on sensitive data. However, differentially private (DP) training (e.g. using DP-SGD) can defend against such attacks with large training datasets causing only minimal loss of network utility. Folklore, heuristics, and (albeit pessimistic) DP bounds suggest this fails for networks trained with small per-class datasets, yet to the best of our knowledge the literature offers no compelling evidence. We directly demonstrate this vulnerability by significantly extending reconstruction attack capabilities under a realistic adversary threat model for few-shot transfer learned image classifiers. We design new white-box and black-box attacks and find that DP-SGD is unable to defend against these without significant classifier utility loss. To address this, we propose a novel homomorphic encryption (HE) method that protects training data without degrading model's accuracy. Conventional HE secures model's input data and requires costly homomorphic implementation of the entire classifier. In contrast, our new scheme is computationally efficient and protects training data rather than input data. This is achieved by means of a simple role-reversal where classifier input data is unencrypted but transfer-learned weights are encrypted. Classifier outputs remain encrypted, thus preventing both white-box and black-box (and any other) training-data reconstruction attacks. Under this new scheme only a trusted party with a private decryption key can obtain the classifier class decisions.