HearSay Benchmark: Do Audio LLMs Leak What They Hear?

作者: Jin Wang, Liang Lin, Kaiwen Luo, Weiliu Wang, Yitian Chen, Moayad Aloqaily, Xuehai Tang, Zhenhong Zhou, Kun Wang, Li Sun, Qingsong Wen

分类: cs.CL

发布日期: 2026-01-07

🔗 代码/项目: GITHUB

💡 一句话要点

HearSay基准测试揭示音频大语言模型存在严重语音隐私泄露风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频大语言模型 隐私泄露 声纹识别 基准测试 安全机制 思维链推理 HearSay

📋 核心要点

现有音频大语言模型缺乏对用户语音隐私的充分保护，存在通过声纹泄露敏感信息的风险。
论文构建HearSay基准测试，包含大量真实音频数据，用于评估和分析ALLMs的隐私泄露程度。
实验表明ALLMs能从声纹中提取性别等隐私属性，且现有安全机制不足以阻止隐私泄露，思维链推理还会加剧风险。

📝 摘要（中文）

音频大语言模型(ALLMs)在理解和生成方面取得了显著进展，但其潜在的隐私影响在很大程度上仍未被探索。本文首次研究了ALLMs是否会仅通过声纹无意中泄露用户隐私，并提出了一个全面的基准测试$ extit{HearSay}$，该基准测试由超过22,000个真实音频片段构建而成。为了确保数据质量，该基准测试通过严格的流程进行精心策划，包括自动分析和人工验证，从而保证所有隐私标签都基于事实记录。在$ extit{HearSay}$上进行的大量实验产生了三个关键发现：$ extbf{显著的隐私泄露}$：ALLMs固有地从声纹中提取私人属性，在性别上的准确率达到92.89%，并有效地分析社会属性。$ extbf{安全机制不足}$：令人震惊的是，现有的安全措施严重不足；大多数模型未能拒绝侵犯隐私的请求，在生理特征方面的拒绝率接近于零。$ extbf{推理加剧风险}$：思维链(CoT)推理通过揭示更深层次的声学相关性，加剧了有能力的模型中的隐私风险。这些发现暴露了ALLMs中的关键漏洞，强调了迫切需要有针对性的隐私对齐。

🔬 方法详解

问题定义：论文旨在解决音频大语言模型（ALLMs）可能存在的用户隐私泄露问题。现有ALLMs在语音理解和生成方面表现出色，但它们是否会通过分析用户的声纹信息来推断出用户的敏感属性，例如性别、年龄、社会背景等，尚未得到充分研究。现有的方法缺乏对ALLMs隐私风险的全面评估和有效的防御机制。

核心思路：论文的核心思路是构建一个高质量的基准测试数据集（HearSay），并利用该数据集来系统地评估ALLMs的隐私泄露风险。通过设计一系列针对性的实验，分析ALLMs在不同场景下提取和泄露用户隐私信息的行为。此外，论文还研究了现有安全机制的有效性，并探讨了思维链（CoT）推理对隐私风险的影响。

技术框架：HearSay基准测试的构建流程包括以下几个主要阶段：1) 数据收集：从真实世界收集大量的音频片段。2) 自动分析：使用自动化工具对音频数据进行初步分析，提取声纹特征。3) 人工验证：由人工专家对自动分析的结果进行验证和修正，确保数据的准确性和可靠性。4) 隐私标签标注：为每个音频片段标注相关的隐私属性，例如性别、年龄、社会背景等。5) 实验评估：使用HearSay数据集对不同的ALLMs进行评估，分析其隐私泄露风险。

关键创新：论文的主要创新点在于：1) 首次系统地研究了ALLMs的隐私泄露问题。2) 构建了一个高质量的、包含大量真实音频数据的基准测试数据集（HearSay）。3) 揭示了现有ALLMs存在严重的隐私泄露风险，并指出现有安全机制的不足。4) 探讨了思维链（CoT）推理对隐私风险的影响。

关键设计：HearSay基准测试的关键设计包括：1) 数据集的规模和多样性：数据集包含超过22,000个真实音频片段，涵盖了不同的说话人、场景和语言。2) 隐私标签的准确性和可靠性：通过自动化分析和人工验证相结合的方式，确保隐私标签的准确性和可靠性。3) 实验评估的全面性和针对性：设计了一系列针对性的实验，从不同的角度评估ALLMs的隐私泄露风险。4) 评估指标的选择：选择合适的评估指标来量化ALLMs的隐私泄露程度，例如准确率、拒绝率等。

📊 实验亮点

实验结果表明，ALLMs在性别识别上的准确率高达92.89%，表明其能够有效地从声纹中提取隐私属性。此外，实验还发现，现有的安全机制对于阻止隐私泄露几乎无效，大多数模型未能拒绝侵犯隐私的请求，在生理特征方面的拒绝率接近于零。思维链推理进一步加剧了隐私风险。

🎯 应用场景

该研究成果可应用于评估和改进音频大语言模型的隐私保护能力，帮助开发者设计更安全的ALLMs。此外，该研究还可以为相关监管机构提供参考，制定更完善的隐私保护政策。未来，该研究可以扩展到其他类型的多模态大语言模型，例如视频大语言模型，以评估其潜在的隐私风险。

📄 摘要（原文）

While Audio Large Language Models (ALLMs) have achieved remarkable progress in understanding and generation, their potential privacy implications remain largely unexplored. This paper takes the first step to investigate whether ALLMs inadvertently leak user privacy solely through acoustic voiceprints and introduces $\textit{HearSay}$, a comprehensive benchmark constructed from over 22,000 real-world audio clips. To ensure data quality, the benchmark is meticulously curated through a rigorous pipeline involving automated profiling and human verification, guaranteeing that all privacy labels are grounded in factual records. Extensive experiments on $\textit{HearSay}$ yield three critical findings: $\textbf{Significant Privacy Leakage}$: ALLMs inherently extract private attributes from voiceprints, reaching 92.89% accuracy on gender and effectively profiling social attributes. $\textbf{Insufficient Safety Mechanisms}$: Alarmingly, existing safeguards are severely inadequate; most models fail to refuse privacy-intruding requests, exhibiting near-zero refusal rates for physiological traits. $\textbf{Reasoning Amplifies Risk}$: Chain-of-Thought (CoT) reasoning exacerbates privacy risks in capable models by uncovering deeper acoustic correlations. These findings expose critical vulnerabilities in ALLMs, underscoring the urgent need for targeted privacy alignment. The codes and dataset are available at https://github.com/JinWang79/HearSay_Benchmark

HearSay Benchmark: Do Audio LLMs Leak What They Hear?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册