No for Some, Yes for Others: Persona Prompts and Other Sources of False Refusal in Language Models
作者: Flor Miriam Plaza-del-Arco, Paul Röttger, Nino Scherrer, Emanuele Borgonovo, Elmar Plischke, Dirk Hovy
分类: cs.CL
发布日期: 2025-09-09
💡 一句话要点
研究表明:人格化提示可能导致LLM产生虚假拒绝,但影响程度或被高估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人格化提示 虚假拒绝 社会偏见 蒙特卡罗方法
📋 核心要点
- 现有研究表明人格化提示可能导致LLM错误拒绝用户请求,但缺乏对该问题程度的全面量化。
- 论文提出一种基于蒙特卡罗的方法,以高效的方式量化社会人口学角色对LLM虚假拒绝的影响。
- 实验结果表明,模型能力越强,人格对拒绝率的影响越小,模型和任务选择对虚假拒绝影响显著。
📝 摘要(中文)
大型语言模型(LLM)日益融入日常生活并呈现个性化趋势。然而,LLM的个性化也可能增加意外的副作用。最近的研究表明,人格化提示可能导致模型错误地拒绝用户请求。为了量化这个问题,本文衡量了15种社会人口学角色(基于性别、种族、宗教和残疾)对虚假拒绝的影响。为了控制其他因素,还测试了16种不同的模型、3个任务(自然语言推理、礼貌性和冒犯性分类)和9种提示释义。提出了一种基于蒙特卡罗的方法,以高效的方式量化这个问题。结果表明,随着模型能力的提高,人格对拒绝率的影响越来越小。某些社会人口学角色会增加某些模型中的虚假拒绝,这表明对齐策略或安全机制存在潜在偏差。然而,模型选择和任务对虚假拒绝有显著影响,尤其是在敏感内容任务中。研究结果表明,人格效应可能被高估,并且可能归因于其他因素。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在人格化提示下可能出现的虚假拒绝问题。现有方法缺乏对这种现象的全面量化,并且未能充分探究不同社会人口学角色、模型架构和任务类型对虚假拒绝的影响。这种虚假拒绝可能源于模型对齐策略或安全机制中的潜在偏差,导致模型在特定人格设定下拒绝执行原本可以完成的任务。
核心思路:论文的核心思路是通过系统性的实验,量化不同社会人口学角色对LLM虚假拒绝的影响。通过控制模型选择、任务类型和提示释义等变量,分析人格化提示与虚假拒绝之间的关系。利用蒙特卡罗方法,以样本高效的方式估计虚假拒绝率,从而更准确地评估人格效应。
技术框架:论文采用实验研究方法,主要包含以下几个阶段: 1. 人格化提示构建:构建15种不同的社会人口学角色,涵盖性别、种族、宗教和残疾等维度。 2. 模型选择:选择16种不同的LLM进行测试,以覆盖不同的模型架构和训练数据。 3. 任务选择:选择3种不同的任务类型,包括自然语言推理、礼貌性和冒犯性分类,以评估模型在不同任务上的表现。 4. 提示释义:对每个任务设计9种不同的提示释义,以控制提示本身对结果的影响。 5. 蒙特卡罗评估:使用蒙特卡罗方法,对每个角色、模型、任务和提示组合进行多次采样,计算虚假拒绝率。 6. 结果分析:分析不同因素对虚假拒绝率的影响,并识别潜在的偏差来源。
关键创新:论文的关键创新在于: 1. 系统性量化:首次系统性地量化了不同社会人口学角色对LLM虚假拒绝的影响。 2. 蒙特卡罗方法:提出了一种基于蒙特卡罗的样本高效评估方法,降低了实验成本。 3. 多因素控制:通过控制模型选择、任务类型和提示释义等变量,更准确地评估了人格效应。
关键设计: 1. 社会人口学角色选择:选择具有代表性的社会人口学角色,以覆盖不同的人群。 2. 任务类型选择:选择具有代表性的自然语言处理任务,以评估模型在不同场景下的表现。 3. 提示释义设计:设计多种不同的提示释义,以控制提示本身对结果的影响。 4. 蒙特卡罗采样策略:采用合适的蒙特卡罗采样策略,以保证评估结果的准确性和效率。
📊 实验亮点
实验结果表明,随着模型能力的提高,人格对拒绝率的影响逐渐减小。某些社会人口学角色会增加特定模型中的虚假拒绝,表明对齐策略或安全机制存在潜在偏差。模型选择和任务类型对虚假拒绝的影响显著,尤其是在敏感内容任务中。研究发现,人格效应可能被高估,其他因素可能起着更重要的作用。
🎯 应用场景
该研究成果可应用于提升LLM的公平性和鲁棒性,减少模型在特定人群或场景下的偏见。通过了解人格化提示对模型行为的影响,可以设计更安全、更可靠的LLM,并应用于个性化推荐、智能客服等领域,避免因模型偏差导致的不良用户体验或歧视性行为。未来,该研究可进一步扩展到更多的人格维度和应用场景。
📄 摘要(原文)
Large language models (LLMs) are increasingly integrated into our daily lives and personalized. However, LLM personalization might also increase unintended side effects. Recent work suggests that persona prompting can lead models to falsely refuse user requests. However, no work has fully quantified the extent of this issue. To address this gap, we measure the impact of 15 sociodemographic personas (based on gender, race, religion, and disability) on false refusal. To control for other factors, we also test 16 different models, 3 tasks (Natural Language Inference, politeness, and offensiveness classification), and nine prompt paraphrases. We propose a Monte Carlo-based method to quantify this issue in a sample-efficient manner. Our results show that as models become more capable, personas impact the refusal rate less and less. Certain sociodemographic personas increase false refusal in some models, which suggests underlying biases in the alignment strategies or safety mechanisms. However, we find that the model choice and task significantly influence false refusals, especially in sensitive content tasks. Our findings suggest that persona effects have been overestimated, and might be due to other factors.