Detection of Personal Data in Structured Datasets Using a Large Language Model

📄 arXiv: 2506.22305v1 📥 PDF

作者: Albert Agisha Ntwali, Luca Rück, Martin Heckmann

分类: cs.CL

发布日期: 2025-06-27

备注: 10 pages

期刊: LLM-DPM '2025, Next Gen Data and Process Management: Large Language Models and Beyond, June 22, 2025, Berlin, Germany


💡 一句话要点

提出基于GPT-4o的个人数据检测方法以解决结构化数据集中的隐私问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个人数据检测 大型语言模型 上下文信息 结构化数据集 隐私保护 机器学习 数据安全

📋 核心要点

  1. 现有方法在结构化数据集中检测个人数据时,往往忽视上下文信息,导致检测性能不足。
  2. 本文提出的解决方案是结合上下文信息,利用GPT-4o模型来提高个人数据的检测准确性。
  3. 实验结果显示,GPT-4o方法在多个数据集上表现优异,尤其在医疗数据集上明显优于其他基线模型。

📝 摘要(中文)

本文提出了一种新颖的方法,通过利用最先进的大型语言模型GPT-4o来检测结构化数据集中的个人数据。该方法的关键创新在于引入上下文信息:除了特征的名称和数值外,还利用数据集中其他特征名称及数据集描述的信息。我们将该方法与Microsoft Presidio和CASSED等替代方法进行了比较,并在多个数据集上进行了评估,包括大型合成数据集DeSSI、从Kaggle和OpenML收集的数据集以及包含重症监护病人信息的真实数据集MIMIC-Demo-Ext。研究结果表明,检测性能在不同数据集上差异显著,GPT-4o方法在医疗数据集MIMIC-Demo-Ext上表现优于其他模型。

🔬 方法详解

问题定义:本文旨在解决在结构化数据集中检测个人数据的挑战,现有方法如CASSED和Presidio未能有效利用上下文信息,导致性能不足。

核心思路:论文的核心思路是结合特征名称、数值及其他特征的上下文信息,利用GPT-4o模型进行个人数据的检测,以提高准确性和鲁棒性。

技术框架:整体架构包括数据预处理、特征提取、上下文信息整合和模型训练四个主要模块。首先,对数据集进行清洗和标准化,然后提取特征并整合上下文信息,最后使用GPT-4o进行训练和评估。

关键创新:最重要的技术创新在于引入上下文信息,使得模型能够理解数据之间的关系,从而显著提升检测性能。这与现有方法的本质区别在于,后者通常只依赖单一特征进行判断。

关键设计:在模型设计中,采用了特定的损失函数来优化上下文信息的利用,同时在网络结构上进行了调整,以适应不同数据集的特征和需求。

📊 实验亮点

实验结果显示,GPT-4o方法在MIMIC-Demo-Ext数据集上的检测性能明显优于其他模型,尤其在Kaggle和OpenML数据集中,利用上下文信息的优势使得检测准确率提升了约20%。

🎯 应用场景

该研究的潜在应用领域包括医疗数据管理、金融数据保护和个人隐私合规性等。通过提高个人数据的检测准确性,能够有效保护用户隐私,减少数据泄露风险,具有重要的实际价值和社会影响。

📄 摘要(原文)

We propose a novel approach for detecting personal data in structured datasets, leveraging GPT-4o, a state-of-the-art Large Language Model. A key innovation of our method is the incorporation of contextual information: in addition to a feature's name and values, we utilize information from other feature names within the dataset as well as the dataset description. We compare our approach to alternative methods, including Microsoft Presidio and CASSED, evaluating them on multiple datasets: DeSSI, a large synthetic dataset, datasets we collected from Kaggle and OpenML as well as MIMIC-Demo-Ext, a real-world dataset containing patient information from critical care units. Our findings reveal that detection performance varies significantly depending on the dataset used for evaluation. CASSED excels on DeSSI, the dataset on which it was trained. Performance on the medical dataset MIMIC-Demo-Ext is comparable across all models, with our GPT-4o-based approach clearly outperforming the others. Notably, personal data detection in the Kaggle and OpenML datasets appears to benefit from contextual information. This is evidenced by the poor performance of CASSED and Presidio (both of which do not utilize the context of the dataset) compared to the strong results of our GPT-4o-based approach. We conclude that further progress in this field would greatly benefit from the availability of more real-world datasets containing personal information.