Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

作者: Xinjie Shen, Mufei Li, Pan Li

分类: cs.CR, cs.AI

发布日期: 2025-09-27 (更新: 2025-10-13)

🔗 代码/项目: GITHUB

💡 一句话要点

提出EAPrivacy基准，评估具身智能体在物理世界中的隐私意识

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 隐私意识 大型语言模型 物理世界 评估基准

📋 核心要点

现有评估方法主要集中于自然语言场景，缺乏对具身智能体在物理世界中隐私意识的有效评估。
EAPrivacy基准通过程序生成多层级场景，考察智能体在复杂物理环境中对隐私的理解和处理能力。
实验表明，现有LLM在物理世界隐私保护方面存在明显不足，尤其是在环境变化和社会规范冲突时。

📝 摘要（中文）

本文提出EAPrivacy，一个综合评估基准，旨在量化大型语言模型（LLM）驱动的智能体在物理世界中的隐私意识。EAPrivacy利用程序生成的场景，跨越四个层级，测试智能体处理敏感对象、适应变化环境、平衡任务执行与隐私约束以及解决与社会规范冲突的能力。测量结果揭示了当前模型的关键缺陷。性能最佳的模型Gemini 2.5 Pro在涉及变化物理环境的场景中仅达到59%的准确率。此外，当任务伴随隐私请求时，模型在高达86%的情况下优先完成任务而非遵守约束。在隐私与关键社会规范相冲突的高风险情境中，GPT-4o和Claude-3.5-haiku等领先模型在超过15%的情况下无视社会规范。这些发现强调了LLM在物理环境中的隐私意识方面存在根本性偏差，并确立了对更鲁棒、更具物理感知能力的对齐的需求。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在具身智能体中的应用日益广泛，但缺乏针对其在物理世界中隐私意识的有效评估方法。现有的评估方法主要集中在自然语言处理领域，无法充分测试智能体在真实物理环境中处理隐私问题的能力。因此，需要一个专门的基准来量化和评估LLM驱动的智能体在物理世界中的隐私保护能力。

核心思路：EAPrivacy的核心思路是通过构建一个程序生成的、多层级的物理世界场景，来系统地测试LLM驱动的智能体在不同复杂程度下的隐私意识。该基准模拟了智能体在真实世界中可能遇到的各种隐私挑战，包括处理敏感对象、适应变化的环境、平衡任务执行与隐私约束以及解决与社会规范的冲突。通过量化智能体在这些场景中的表现，可以全面评估其隐私保护能力。

技术框架：EAPrivacy的技术框架主要包括以下几个模块：1) 场景生成器：使用程序生成不同复杂程度的物理世界场景，包括静态环境、动态环境、包含敏感对象的环境等。2) 任务定义模块：定义智能体需要在场景中完成的任务，这些任务可能与隐私保护相冲突。3) 隐私约束模块：定义智能体在执行任务时需要遵守的隐私约束，例如避免触碰敏感对象、尊重他人隐私等。4) 评估指标模块：定义用于评估智能体隐私保护能力的指标，例如隐私违规率、任务完成率等。5) LLM接口模块：将场景信息和任务指令传递给LLM，并接收LLM的决策结果。

关键创新：EAPrivacy的关键创新在于其能够系统地、全面地评估LLM驱动的智能体在物理世界中的隐私意识。与现有的评估方法相比，EAPrivacy更加关注智能体在真实物理环境中的表现，能够更好地反映智能体的隐私保护能力。此外，EAPrivacy采用程序生成场景的方式，可以灵活地扩展场景的复杂度和多样性，从而更全面地评估智能体的隐私保护能力。

关键设计：EAPrivacy的关键设计包括：1) 多层级场景设计：场景分为四个层级，分别测试智能体处理敏感对象、适应变化环境、平衡任务执行与隐私约束以及解决与社会规范冲突的能力。2) 隐私约束与任务目标的冲突设计：在某些场景中，任务目标与隐私约束存在冲突，需要智能体进行权衡。3) 评估指标的设计：采用多种评估指标，包括隐私违规率、任务完成率、社会规范遵守率等，全面评估智能体的隐私保护能力。

📊 实验亮点

实验结果表明，现有LLM在EAPrivacy基准上的表现不佳。Gemini 2.5 Pro在涉及变化物理环境的场景中仅达到59%的准确率。当任务伴随隐私请求时，模型在高达86%的情况下优先完成任务而非遵守约束。在隐私与关键社会规范相冲突的高风险情境中，GPT-4o和Claude-3.5-haiku等领先模型在超过15%的情况下无视社会规范。这些结果表明，现有LLM在物理世界隐私保护方面存在明显不足。

🎯 应用场景

EAPrivacy的研究成果可应用于开发更安全、更可靠的具身智能体，例如家庭机器人、医疗助手等。通过提高智能体在物理世界中的隐私意识，可以有效保护用户的个人信息和隐私，避免潜在的隐私泄露风险。此外，该基准还可以用于指导LLM的训练和对齐，使其更好地理解和遵守物理世界的隐私规则。

📄 摘要（原文）

The deployment of Large Language Models (LLMs) in embodied agents creates an urgent need to measure their privacy awareness in the physical world. Existing evaluation methods, however, are confined to natural language based scenarios. To bridge this gap, we introduce EAPrivacy, a comprehensive evaluation benchmark designed to quantify the physical-world privacy awareness of LLM-powered agents. EAPrivacy utilizes procedurally generated scenarios across four tiers to test an agent's ability to handle sensitive objects, adapt to changing environments, balance task execution with privacy constraints, and resolve conflicts with social norms. Our measurements reveal a critical deficit in current models. The top-performing model, Gemini 2.5 Pro, achieved only 59\% accuracy in scenarios involving changing physical environments. Furthermore, when a task was accompanied by a privacy request, models prioritized completion over the constraint in up to 86\% of cases. In high-stakes situations pitting privacy against critical social norms, leading models like GPT-4o and Claude-3.5-haiku disregarded the social norm over 15\% of the time. These findings, demonstrated by our benchmark, underscore a fundamental misalignment in LLMs regarding physically grounded privacy and establish the need for more robust, physically-aware alignment. Codes and datasets will be available at https://github.com/Graph-COM/EAPrivacy.

Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册