Privacy-Accuracy Trade-offs in High-Dimensional LASSO under Perturbation Mechanisms

📄 arXiv: 2603.26227 📥 PDF

作者: Ayaka Sakata, Haruka Tanzawa

分类: stat.ML, cs.LG

发布日期: 2026-04-06


💡 一句话要点

针对高维LASSO,研究扰动机制下的隐私-精度权衡问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 差分隐私 高维统计 LASSO 近似消息传递 隐私-精度权衡

📋 核心要点

  1. 现有高维稀疏线性回归方法在保护数据隐私方面存在不足,容易受到攻击。
  2. 通过分析输出扰动和目标扰动两种差分隐私机制,研究稀疏性对隐私-精度权衡的影响。
  3. 研究表明,更强的正则化可以提高隐私性,且两种扰动机制表现出不同的行为特性。

📝 摘要(中文)

本文研究高维场景下,基于LASSO估计器的隐私保护稀疏线性回归问题。我们分析了两种广泛使用的差分隐私机制:输出扰动(向估计器注入噪声)和目标扰动(向损失函数添加随机线性项)。利用近似消息传递(AMP),我们刻画了这些估计器在随机设计和隐私噪声下的典型行为。为了量化隐私,我们采用了典型情况度量,包括平均KL散度,它在相邻数据集的可区分性方面具有假设检验的解释。我们的分析表明,稀疏性在塑造隐私-精度权衡中起着核心作用:更强的正则化可以通过稳定估计器来抵抗单点数据变化,从而提高隐私性。我们进一步表明,这两种机制表现出性质上不同的行为。特别是,对于目标扰动,增加噪声水平可能具有非单调效应,并且过多的噪声可能破坏估计器的稳定性,导致对数据扰动的敏感性增加。我们的结果表明,AMP为分析高维稀疏模型中的隐私-精度权衡提供了一个强大的框架。

🔬 方法详解

问题定义:论文旨在解决高维稀疏线性回归中的隐私保护问题,特别是在使用LASSO估计器时,如何在保证模型精度的同时,有效地防止数据泄露。现有方法在处理高维数据时,隐私保护效果可能不佳,容易受到推理攻击。

核心思路:论文的核心思路是研究两种常见的差分隐私机制(输出扰动和目标扰动)对LASSO估计器的影响,并分析稀疏性在隐私-精度权衡中的作用。通过理论分析,揭示不同扰动机制的特性,以及如何通过调整正则化强度来优化隐私保护效果。

技术框架:论文采用近似消息传递(AMP)理论来分析高维LASSO估计器的行为。整体框架包括:1) 定义高维稀疏线性回归模型;2) 应用输出扰动和目标扰动机制;3) 使用AMP推导估计器的渐近性能;4) 利用平均KL散度量化隐私泄露;5) 分析稀疏性和正则化强度对隐私-精度权衡的影响。

关键创新:论文的关键创新在于:1) 使用AMP理论对高维LASSO估计器在差分隐私下的行为进行了精确刻画;2) 揭示了稀疏性在隐私-精度权衡中的重要作用,并证明更强的正则化可以提高隐私性;3) 发现了输出扰动和目标扰动机制在隐私保护效果上的差异,特别是目标扰动机制的非单调性。

关键设计:论文的关键设计包括:1) 采用LASSO作为稀疏线性回归的估计器;2) 使用高斯噪声进行输出扰动和目标扰动;3) 利用平均KL散度作为隐私度量,该度量具有假设检验的解释;4) 通过调整LASSO的正则化参数来控制模型的稀疏性和隐私保护强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,稀疏性在隐私-精度权衡中起着关键作用,更强的正则化可以提高隐私性。目标扰动机制表现出非单调性,即增加噪声水平可能导致估计器不稳定,反而降低隐私保护效果。AMP为分析高维稀疏模型中的隐私-精度权衡提供了一个强大的理论框架。

🎯 应用场景

该研究成果可应用于金融风控、医疗诊断、推荐系统等需要保护用户隐私的高维数据分析场景。通过合理选择扰动机制和正则化参数,可以在保证模型精度的前提下,有效防止用户数据泄露,提升数据安全性,促进隐私计算技术的发展。

📄 摘要(原文)

We study privacy-preserving sparse linear regression in the high-dimensional regime, focusing on the LASSO estimator. We analyze two widely used mechanisms for differential privacy: output perturbation, which injects noise into the estimator, and objective perturbation, which adds a random linear term to the loss function. Using approximate message passing (AMP), we characterize the typical behavior of these estimators under random design and privacy noise. To quantify privacy, we adopt typical-case measures, including the on-average KL divergence, which admits a hypothesis-testing interpretation in terms of distinguishability between neighboring datasets. Our analysis reveals that sparsity plays a central role in shaping the privacy-accuracy trade-off: stronger regularization can improve privacy by stabilizing the estimator against single-point data changes. We further show that the two mechanisms exhibit qualitatively different behaviors. In particular, for objective perturbation, increasing the noise level can have non-monotonic effects, and excessive noise may destabilize the estimator, leading to increased sensitivity to data perturbations. Our results demonstrate that AMP provides a powerful framework for analyzing privacy-accuracy trade-offs in high-dimensional sparse models.