From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

作者: Ruiqi Zhang, Lingxiang Wang, Hainan Zhang, Zhiming Zheng, Yanyan Lan

分类: cs.CL

发布日期: 2026-03-05

💡 一句话要点

GDS：基于梯度偏差的大语言模型预训练数据检测方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 预训练数据检测 大语言模型 梯度偏差 成员推理 版权保护

📋 核心要点

现有预训练数据检测方法易受词频偏差影响，且依赖微调数据相似性，泛化能力不足。
GDS通过分析训练过程中梯度行为的系统性差异，区分熟悉和不熟悉的样本，实现数据检测。
实验表明，GDS在多个数据集上达到SOTA，并显著提升了跨数据集的可迁移性。

📝 摘要（中文）

大语言模型（LLM）的预训练数据检测对于解决版权问题和缓解基准测试污染至关重要。现有方法主要集中于基于似然的统计特征或微调前后的启发式信号，但前者容易受到语料库中词频偏差的影响，后者强烈依赖于微调数据的相似性。从优化的角度来看，我们观察到在训练过程中，样本从不熟悉到熟悉的变化反映在梯度行为的系统性差异中。熟悉的样本表现出更小的更新幅度、模型组件中不同的更新位置以及更清晰激活的神经元。基于此，我们提出了一种名为GDS的方法，通过探测目标样本的梯度偏差分数来识别预训练数据。具体来说，我们首先使用梯度剖面来表示每个样本，该剖面捕获FFN和Attention模块中参数更新的幅度、位置和集中度，从而揭示成员数据和非成员数据之间的一致区别。然后，将这些特征输入到轻量级分类器中以执行二元成员推理。在五个公共数据集上的实验表明，GDS实现了最先进的性能，并且相比强大的基线方法，具有显着改进的跨数据集可迁移性。进一步的可解释性分析显示了梯度特征分布的差异，从而实现了实用且可扩展的预训练数据检测。

🔬 方法详解

问题定义：论文旨在解决大语言模型预训练数据检测的问题。现有方法，如基于似然的方法，容易受到语料库中词频偏差的影响，导致检测结果不准确。而基于微调的方法，则强烈依赖于微调数据的相似性，泛化能力较差。因此，需要一种更鲁棒、更具泛化性的预训练数据检测方法。

核心思路：论文的核心思路是观察到训练过程中，样本从“不熟悉”到“熟悉”的变化会反映在梯度行为的系统性差异中。具体来说，模型对于预训练数据（“熟悉”样本）的梯度更新幅度较小，更新位置集中在特定模块，神经元激活也更清晰。通过分析这些梯度偏差，可以有效区分预训练数据和非预训练数据。

技术框架：GDS方法主要包含以下几个阶段：1) 梯度剖面提取：针对每个样本，计算其在模型各层（特别是FFN和Attention模块）的梯度信息，包括梯度幅度、位置和集中度。2) 特征表示：将提取的梯度信息转化为梯度剖面，作为样本的特征表示。3) 成员推理：将梯度剖面输入到一个轻量级分类器（如逻辑回归或支持向量机）中，进行二元成员推理，判断该样本是否属于预训练数据。

关键创新：GDS的关键创新在于从优化的角度出发，利用梯度偏差来识别预训练数据。与现有方法相比，GDS不依赖于词频统计或微调数据，因此更加鲁棒和泛化。此外，GDS通过分析梯度在模型不同组件中的分布，能够更细粒度地捕捉预训练数据的特征。

关键设计：GDS的关键设计包括：1) 梯度剖面的构建：选择FFN和Attention模块作为梯度分析的重点，因为这些模块对模型的学习能力至关重要。2) 梯度特征的提取：提取梯度幅度、位置和集中度等特征，以全面描述梯度行为。3) 轻量级分类器的选择：使用逻辑回归或支持向量机等轻量级分类器，以降低计算成本并提高推理速度。

🖼️ 关键图片

📊 实验亮点

GDS在五个公共数据集上取得了SOTA性能，显著优于现有基线方法。实验结果表明，GDS在跨数据集迁移方面表现出色，即使在训练数据分布差异较大的情况下，也能保持较高的检测准确率。此外，可解释性分析揭示了梯度特征分布的差异，验证了GDS方法的有效性。

🎯 应用场景

该研究成果可应用于大语言模型的版权保护、基准测试集污染检测、以及数据溯源等领域。通过识别模型训练所使用的数据，可以有效防止侵权行为，确保模型的公平性和可靠性，并为未来的模型训练提供数据选择的依据。

📄 摘要（原文）

Pre-training data detection for LLMs is essential for addressing copyright concerns and mitigating benchmark contamination. Existing methods mainly focus on the likelihood-based statistical features or heuristic signals before and after fine-tuning, but the former are susceptible to word frequency bias in corpora, and the latter strongly depend on the similarity of fine-tuning data. From an optimization perspective, we observe that during training, samples transition from unfamiliar to familiar in a manner reflected by systematic differences in gradient behavior. Familiar samples exhibit smaller update magnitudes, distinct update locations in model components, and more sharply activated neurons. Based on this insight, we propose GDS, a method that identifies pre-training data by probing Gradient Deviation Scores of target samples. Specifically, we first represent each sample using gradient profiles that capture the magnitude, location, and concentration of parameter updates across FFN and Attention modules, revealing consistent distinctions between member and non-member data. These features are then fed into a lightweight classifier to perform binary membership inference. Experiments on five public datasets show that GDS achieves state-of-the-art performance with significantly improved cross-dataset transferability over strong baselines. Further interpretability analyse show gradient feature distribution differences, enabling practical and scalable pre-training data detection.

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理