Do LLMs Really Memorize Personally Identifiable Information? Revisiting PII Leakage with a Cue-Controlled Memorization Framework

作者: Xiaoyu Luo, Yiyi Chen, Qiongxiu Li, Johannes Bjerva

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 20 pages, 13 figures

💡 一句话要点

提出Cue-Resistant Memorization框架以评估LLMs的PII泄露问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 个人身份信息 记忆评估 提示控制 隐私保护 多语言评估 数据安全

📋 核心要点

现有研究表明大型语言模型存在PII泄露，但重建成功往往被误解为模型的记忆能力，缺乏有效的评估方法。
本文提出Cue-Resistant Memorization框架，通过控制提示与目标重叠，重新评估PII泄露，确保评估的有效性。
实验结果显示，在控制提示后，重建成功率显著下降，表明PII泄露更多是提示驱动的行为，而非真实记忆。

📝 摘要（中文）

大型语言模型（LLMs）被报告存在泄露个人身份信息（PII）的现象，成功的PII重建常被解读为记忆的证据。本文提出了一种原则性的记忆评估修订，主张在低词汇提示条件下评估PII泄露，确保目标PII无法通过提示诱导的泛化或模式完成进行重建。我们将Cue-Resistant Memorization（CRM）形式化为一种受控评估框架，并在32种语言和多种记忆范式下进行大规模多语言的PII泄露重新评估。研究发现，重建的有效性主要源于直接的表面形式提示，而非真实的记忆。当控制这些提示时，重建成功率显著下降。总体结果表明，先前报告的PII泄露更能通过提示驱动行为来解释，而非真正的记忆，强调了受控评估在量化LLMs隐私相关记忆中的重要性。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在个人身份信息（PII）泄露评估中的不足，现有方法未能有效区分真实记忆与提示驱动的重建行为。

核心思路：提出Cue-Resistant Memorization（CRM）框架，通过在低词汇提示条件下评估PII泄露，确保重建过程不受提示诱导的影响，从而更准确地反映模型的记忆能力。

技术框架：CRM框架包括多个模块，首先是提示控制模块，确保提示与目标信息的重叠最小化；其次是重建评估模块，采用多种重建方法进行评估；最后是数据分析模块，分析不同条件下的重建成功率。

关键创新：最重要的创新在于引入了受控提示评估机制，明确区分了提示驱动行为与真实记忆，提供了一种新的评估标准，克服了传统方法的局限性。

关键设计：在实验中，设置了多种提示条件，采用了不同的重建方法（如逐字前后缀完成和关联重建），并通过对比分析不同条件下的成功率，确保评估的全面性和准确性。

📊 实验亮点

实验结果显示，在控制提示条件后，PII重建的成功率显著下降，表明先前的泄露现象主要是由提示驱动行为造成的，而非真正的记忆。具体而言，重建成功率在控制提示后减少了约70%，强调了受控评估的重要性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、数据隐私保护和模型安全性评估。通过更准确地评估LLMs的记忆能力，可以为开发更安全的AI系统提供理论支持，减少隐私泄露风险，提升用户信任度。

📄 摘要（原文）

Large Language Models (LLMs) have been reported to "leak" Personally Identifiable Information (PII), with successful PII reconstruction often interpreted as evidence of memorization. We propose a principled revision of memorization evaluation for LLMs, arguing that PII leakage should be evaluated under low lexical cue conditions, where target PII cannot be reconstructed through prompt-induced generalization or pattern completion. We formalize Cue-Resistant Memorization (CRM) as a cue-controlled evaluation framework and a necessary condition for valid memorization evaluation, explicitly conditioning on prompt-target overlap cues. Using CRM, we conduct a large-scale multilingual re-evaluation of PII leakage across 32 languages and multiple memorization paradigms. Revisiting reconstruction-based settings, including verbatim prefix-suffix completion and associative reconstruction, we find that their apparent effectiveness is driven primarily by direct surface-form cues rather than by true memorization. When such cues are controlled for, reconstruction success diminishes substantially. We further examine cue-free generation and membership inference, both of which exhibit extremely low true positive rates. Overall, our results suggest that previously reported PII leakage is better explained by cue-driven behavior than by genuine memorization, highlighting the importance of cue-controlled evaluation for reliably quantifying privacy-relevant memorization in LLMs.

Do LLMs Really Memorize Personally Identifiable Information? Revisiting PII Leakage with a Cue-Controlled Memorization Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册