Integrating Homomorphic Encryption and Synthetic Data in FL for Privacy and Learning Quality
作者: Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller
分类: cs.LG
发布日期: 2026-03-03
DOI: 10.1109/LANMAN66415.2025.11154574
💡 一句话要点
提出Alt-FL:结合同态加密与合成数据,提升联邦学习隐私与模型质量
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 联邦学习 同态加密 合成数据 隐私保护 交替训练
📋 核心要点
- 联邦学习在保护隐私的同时面临学习质量和资源消耗的挑战,尤其是在使用同态加密等计算密集型技术时。
- Alt-FL通过交替使用真实数据和合成数据进行本地训练,并结合同态加密,在隐私保护和模型性能之间取得平衡。
- 实验结果表明,Alt-FL在保证隐私的同时,显著提高了模型准确率,并降低了同态加密相关的计算成本。
📝 摘要(中文)
联邦学习(FL)无需共享敏感客户端数据即可实现机器学习模型的协同训练,使其成为隐私关键型应用的基础。然而,FL面临着确保学习质量和强大的隐私保护的双重挑战,同时还要保持较低的资源消耗,尤其是在使用同态加密(HE)等计算密集型技术时。本文通过集成合成数据生成和交错策略,增强了使用HE保护隐私的FL过程。具体来说,我们的解决方案名为交替联邦学习(Alt-FL),包括在真实数据上的本地训练(真实轮次)和在合成数据上的本地训练(合成轮次)之间交替,并在真实轮次和合成轮次分别传输加密和明文模型参数。我们的方法通过合成数据增强的数据集提高了学习质量(例如,模型准确性),通过HE保护了客户端数据隐私,并通过我们的交错策略保持了可管理的加密和解密成本。我们针对数据泄露攻击(如DLG攻击)评估了我们的解决方案,证明了强大的隐私保护。此外,相对于选择性HE,Alt-FL提供了高13.4%的模型准确率,并将HE相关成本降低了高达48%。
🔬 方法详解
问题定义:联邦学习旨在保护客户端数据隐私,但直接应用同态加密(HE)会带来巨大的计算开销,影响模型训练效率。现有方法,如选择性HE,试图降低计算成本,但可能牺牲模型精度或隐私保护的强度。因此,如何在保证隐私的前提下,提升联邦学习的模型质量,并降低计算成本,是一个关键问题。
核心思路:Alt-FL的核心思路是交替使用真实数据和合成数据进行本地训练。在真实数据上进行同态加密训练以保护隐私,在合成数据上进行明文训练以提升模型性能并降低计算开销。通过这种交替策略,可以在隐私保护、模型精度和计算效率之间取得平衡。
技术框架:Alt-FL的整体框架包含以下几个主要阶段:1) 初始化:服务器初始化全局模型。2) 真实轮次:客户端使用真实数据进行本地训练,并使用同态加密对模型参数进行加密。加密后的参数发送到服务器进行聚合。3) 合成轮次:客户端使用本地生成的合成数据进行本地训练,并将明文模型参数发送到服务器进行聚合。4) 模型更新:服务器聚合来自客户端的加密和明文模型参数,并更新全局模型。5) 迭代:重复真实轮次和合成轮次,直到模型收敛。
关键创新:Alt-FL的关键创新在于交替训练策略。与传统的仅使用真实数据或仅使用合成数据的联邦学习方法不同,Alt-FL结合了两者的优点。通过在真实数据上进行加密训练,保证了隐私保护;通过在合成数据上进行明文训练,降低了计算成本,并提升了模型性能。这种交替策略是Alt-FL能够同时实现隐私保护、模型精度和计算效率的关键。
关键设计:Alt-FL的关键设计包括:1) 合成数据生成:使用差分隐私生成对抗网络(DP-GAN)或其他方法生成高质量的合成数据,以保证合成数据的可用性。2) 交替比例:调整真实轮次和合成轮次的比例,以平衡隐私保护和模型性能。3) 同态加密方案:选择合适的同态加密方案,以满足隐私保护和计算效率的要求。4) 模型聚合:设计合适的模型聚合方法,以有效地融合来自加密和明文模型参数的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Alt-FL在保护隐私的同时,显著提高了模型准确率,并降低了同态加密相关的计算成本。具体来说,Alt-FL相对于选择性HE,提供了高13.4%的模型准确率,并将HE相关成本降低了高达48%。此外,针对数据泄露攻击(如DLG攻击)的评估表明,Alt-FL具有强大的隐私保护能力。
🎯 应用场景
Alt-FL适用于需要高度隐私保护的联邦学习应用场景,例如医疗健康、金融服务和智能交通等。在这些领域,数据通常包含敏感信息,需要严格的隐私保护措施。Alt-FL可以在保护用户隐私的同时,实现高质量的模型训练,从而为这些领域的应用提供强大的技术支持。未来,Alt-FL有望在更多隐私敏感型应用中发挥重要作用。
📄 摘要(原文)
Federated learning (FL) enables collaborative training of machine learning models without sharing sensitive client data, making it a cornerstone for privacy-critical applications. However, FL faces the dual challenge of ensuring learning quality and robust privacy protection while keeping resource consumption low, particularly when using computationally expensive techniques such as homomorphic encryption (HE). In this work, we enhance an FL process that preserves privacy using HE by integrating it with synthetic data generation and an interleaving strategy. Specifically, our solution, named Alternating Federated Learning (Alt-FL), consists of alternating between local training with authentic data (authentic rounds) and local training with synthetic data (synthetic rounds) and transferring the encrypted and plaintext model parameters on authentic and synthetic rounds (resp.). Our approach improves learning quality (e.g., model accuracy) through datasets enhanced with synthetic data, preserves client data privacy via HE, and keeps manageable encryption and decryption costs through our interleaving strategy. We evaluate our solution against data leakage attacks, such as the DLG attack, demonstrating robust privacy protection. Also, Alt-FL provides 13.4% higher model accuracy and decreases HE-related costs by up to 48% with respect to Selective HE.