G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs
作者: Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou
分类: cs.LG, cs.AI
发布日期: 2026-04-01
备注: 14 pages, 3 figures and tables. Accepted in ICPR-2026 conference, to appear in the Springer LNCS proceedings
💡 一句话要点
G-Drift MIA:基于梯度诱导特征漂移的大语言模型成员推断攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成员推断攻击 大型语言模型 梯度诱导特征漂移 隐私风险评估 白盒攻击
📋 核心要点
- 现有LLM成员推断攻击依赖输出概率或损失,在同分布数据上表现不佳,难以有效区分成员与非成员。
- G-Drift MIA通过梯度上升增加样本损失,观察模型内部表示(logits、激活等)的漂移,以此区分成员样本。
- 实验表明,G-Drift在多个LLM和数据集上显著优于现有方法,并揭示了记忆样本特征漂移更小更结构化的特性。
📝 摘要(中文)
大型语言模型(LLMs)在海量网络规模语料库上训练,引发了对隐私和版权的日益关注。成员推断攻击(MIAs)旨在确定给定的样本是否在训练期间被使用。现有的LLM MIAs主要依赖于输出概率或损失值,并且当成员和非成员来自同一分布时,通常仅比随机猜测略好。我们引入了G-Drift MIA,这是一种基于梯度诱导特征漂移的白盒成员推断方法。给定一个候选样本(x,y),我们应用一个有针对性的梯度上升步骤来增加其损失,并测量更新前后内部表示的变化,包括logits、隐藏层激活和在固定特征方向上的投影。这些漂移信号被用于训练一个轻量级的逻辑分类器,该分类器有效地将成员与非成员分开。在多个基于Transformer的LLM和来自真实MIA基准的数据集上,G-Drift显著优于基于置信度、基于困惑度和基于参考的攻击。我们进一步表明,记忆的训练样本系统地表现出比非成员更小和更结构化的特征漂移,从而提供了梯度几何、表示稳定性和记忆之间的机制联系。总的来说,我们的结果表明,小的、受控的梯度干预为审计训练数据的成员资格和评估LLM中的隐私风险提供了一种实用的工具。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的成员推断问题,即判断一个给定的数据样本是否被用于训练该模型。现有方法主要依赖于模型的输出概率或困惑度等指标,但在成员和非成员样本来自同一分布时,这些方法的性能往往接近随机猜测,缺乏有效性。
核心思路:论文的核心思路是利用梯度诱导的特征漂移来区分成员和非成员样本。具体来说,通过对给定的样本进行一次梯度上升操作,使其损失增加,然后观察模型内部表示(如logits、隐藏层激活等)的变化。成员样本由于已经被模型“记忆”,其内部表示对梯度扰动的抵抗力更强,因此产生的特征漂移更小、更结构化。
技术框架:G-Drift MIA的整体流程如下:1. 梯度扰动:对给定的候选样本(x, y),计算其损失函数关于模型参数的梯度,并进行一次梯度上升操作,以增加该样本的损失。2. 特征提取:在梯度扰动前后,提取模型内部的多种特征表示,包括logits、隐藏层激活以及在固定特征方向上的投影。3. 漂移计算:计算梯度扰动前后,提取的特征表示之间的差异,即特征漂移。4. 分类器训练:使用计算得到的特征漂移作为输入,训练一个轻量级的逻辑回归分类器,用于区分成员和非成员样本。
关键创新:该方法最重要的创新点在于利用梯度诱导的特征漂移作为成员推断的信号。与现有方法相比,G-Drift MIA不依赖于模型的输出概率或困惑度等外部指标,而是深入到模型的内部表示,通过观察梯度扰动对模型内部状态的影响来判断样本的成员资格。这种方法能够更有效地捕捉到模型对成员样本的“记忆”效应。
关键设计:关键设计包括:1. 梯度上升步长:选择合适的梯度上升步长至关重要,步长过小可能无法产生明显的特征漂移,步长过大则可能导致模型表示的过度扰动。2. 特征选择:选择哪些内部特征表示进行分析,例如logits、隐藏层激活、特定方向上的投影等。不同的特征可能对成员推断的敏感度不同。3. 分类器选择:选择合适的分类器对特征漂移进行分类,论文中使用的是轻量级的逻辑回归分类器,以避免过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,G-Drift MIA在多个Transformer-based LLM和数据集上显著优于现有的成员推断攻击方法。例如,在某些数据集上,G-Drift MIA的准确率比基于置信度、基于困惑度和基于参考的攻击方法高出10%以上。此外,实验还验证了记忆的训练样本表现出比非成员更小和更结构化的特征漂移。
🎯 应用场景
G-Drift MIA可用于评估大型语言模型训练数据的隐私风险,帮助模型开发者识别和缓解潜在的隐私泄露问题。该方法还可用于审计训练数据集,确保其中不包含未经授权或侵犯版权的数据。此外,该研究为理解LLM的记忆机制提供了新的视角,有助于开发更安全、更可靠的AI系统。
📄 摘要(原文)
Large language models (LLMs) are trained on massive web-scale corpora, raising growing concerns about privacy and copyright. Membership inference attacks (MIAs) aim to determine whether a given example was used during training. Existing LLM MIAs largely rely on output probabilities or loss values and often perform only marginally better than random guessing when members and non-members are drawn from the same distribution. We introduce G-Drift MIA, a white-box membership inference method based on gradient-induced feature drift. Given a candidate (x,y), we apply a single targeted gradient-ascent step that increases its loss and measure the resulting changes in internal representations, including logits, hidden-layer activations, and projections onto fixed feature directions, before and after the update. These drift signals are used to train a lightweight logistic classifier that effectively separates members from non-members. Across multiple transformer-based LLMs and datasets derived from realistic MIA benchmarks, G-Drift substantially outperforms confidence-based, perplexity-based, and reference-based attacks. We further show that memorized training samples systematically exhibit smaller and more structured feature drift than non-members, providing a mechanistic link between gradient geometry, representation stability, and memorization. In general, our results demonstrate that small, controlled gradient interventions offer a practical tool for auditing the membership of training-data and assessing privacy risks in LLMs.