Do LLMs Really Memorize Personally Identifiable Information? Revisiting PII Leakage with a Cue-Controlled Memorization Framework
作者: Xiaoyu Luo, Yiyi Chen, Qiongxiu Li, Johannes Bjerva
分类: cs.CL, cs.AI
发布日期: 2026-01-07
备注: 20 pages, 13 figures
💡 一句话要点
提出Cue-Resistant Memorization框架以评估LLMs的PII泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 个人身份信息 记忆评估 提示控制 隐私保护 多语言评估 数据安全
📋 核心要点
- 现有研究表明大型语言模型存在PII泄露,但重建成功往往被误解为模型的记忆能力,缺乏有效的评估方法。
- 本文提出Cue-Resistant Memorization框架,通过控制提示与目标重叠,重新评估PII泄露,确保评估的有效性。
- 实验结果显示,在控制提示后,重建成功率显著下降,表明PII泄露更多是提示驱动的行为,而非真实记忆。
📝 摘要(中文)
大型语言模型(LLMs)被报告存在泄露个人身份信息(PII)的现象,成功的PII重建常被解读为记忆的证据。本文提出了一种原则性的记忆评估修订,主张在低词汇提示条件下评估PII泄露,确保目标PII无法通过提示诱导的泛化或模式完成进行重建。我们将Cue-Resistant Memorization(CRM)形式化为一种受控评估框架,并在32种语言和多种记忆范式下进行大规模多语言的PII泄露重新评估。研究发现,重建的有效性主要源于直接的表面形式提示,而非真实的记忆。当控制这些提示时,重建成功率显著下降。总体结果表明,先前报告的PII泄露更能通过提示驱动行为来解释,而非真正的记忆,强调了受控评估在量化LLMs隐私相关记忆中的重要性。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在个人身份信息(PII)泄露评估中的不足,现有方法未能有效区分真实记忆与提示驱动的重建行为。
核心思路:提出Cue-Resistant Memorization(CRM)框架,通过在低词汇提示条件下评估PII泄露,确保重建过程不受提示诱导的影响,从而更准确地反映模型的记忆能力。
技术框架:CRM框架包括多个模块,首先是提示控制模块,确保提示与目标信息的重叠最小化;其次是重建评估模块,采用多种重建方法进行评估;最后是数据分析模块,分析不同条件下的重建成功率。
关键创新:最重要的创新在于引入了受控提示评估机制,明确区分了提示驱动行为与真实记忆,提供了一种新的评估标准,克服了传统方法的局限性。
关键设计:在实验中,设置了多种提示条件,采用了不同的重建方法(如逐字前后缀完成和关联重建),并通过对比分析不同条件下的成功率,确保评估的全面性和准确性。
📊 实验亮点
实验结果显示,在控制提示条件后,PII重建的成功率显著下降,表明先前的泄露现象主要是由提示驱动行为造成的,而非真正的记忆。具体而言,重建成功率在控制提示后减少了约70%,强调了受控评估的重要性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、数据隐私保护和模型安全性评估。通过更准确地评估LLMs的记忆能力,可以为开发更安全的AI系统提供理论支持,减少隐私泄露风险,提升用户信任度。
📄 摘要(原文)
Large Language Models (LLMs) have been reported to "leak" Personally Identifiable Information (PII), with successful PII reconstruction often interpreted as evidence of memorization. We propose a principled revision of memorization evaluation for LLMs, arguing that PII leakage should be evaluated under low lexical cue conditions, where target PII cannot be reconstructed through prompt-induced generalization or pattern completion. We formalize Cue-Resistant Memorization (CRM) as a cue-controlled evaluation framework and a necessary condition for valid memorization evaluation, explicitly conditioning on prompt-target overlap cues. Using CRM, we conduct a large-scale multilingual re-evaluation of PII leakage across 32 languages and multiple memorization paradigms. Revisiting reconstruction-based settings, including verbatim prefix-suffix completion and associative reconstruction, we find that their apparent effectiveness is driven primarily by direct surface-form cues rather than by true memorization. When such cues are controlled for, reconstruction success diminishes substantially. We further examine cue-free generation and membership inference, both of which exhibit extremely low true positive rates. Overall, our results suggest that previously reported PII leakage is better explained by cue-driven behavior than by genuine memorization, highlighting the importance of cue-controlled evaluation for reliably quantifying privacy-relevant memorization in LLMs.