When Do Language Models Endorse Limitations on Human Rights Principles?
作者: Keenan Samway, Nicole Miu Takagi, Rada Mihalcea, Bernhard Schölkopf, Ilias Chalkidis, Daniel Hershcovich, Zhijing Jin
分类: cs.CL
发布日期: 2026-03-04
备注: EACL Findings 2026
💡 一句话要点
评估大型语言模型对人权原则限制的倾向与偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人权原则 伦理偏差 跨语言评估 合成数据
📋 核心要点
- 大型语言模型在信息传播中扮演重要角色,但其与人权原则的对齐存在挑战,可能导致潜在的伦理风险。
- 该研究通过构建合成场景,系统性地评估了LLMs在不同人权议题上的倾向性,揭示其潜在的偏差。
- 实验结果表明,LLMs在不同人权类型、语言和提示方式下存在显著差异,突显了模型对齐的复杂性。
📝 摘要(中文)
随着大型语言模型(LLMs)日益影响全球信息访问并可能塑造公共舆论,其与普世人权原则的一致性变得至关重要,以确保在AI介导的高风险互动中遵守这些权利。本文利用跨24项权利条款和八种语言的1,152个合成生成场景,评估了LLMs如何处理涉及《世界人权宣言》(UDHR)的权衡。对11个主要LLMs的分析揭示了系统性偏差,模型表现出以下特点:(1)接受对经济、社会和文化权利的限制的频率高于对政治和公民权利的限制;(2)表现出显著的跨语言差异,与英语或罗马尼亚语相比,中文和印地语中对限制权利行为的认可率更高;(3)对基于提示的引导表现出很大的敏感性;(4)在李克特量表和开放式回答之间表现出明显的差异,突出了LLM偏好评估中的关键挑战。
🔬 方法详解
问题定义:现有的大型语言模型在信息传播和决策中扮演着越来越重要的角色,但它们是否能够始终如一地遵守和维护普世人权原则是一个重要的问题。现有的方法缺乏对LLMs在人权问题上的系统性评估,尤其是在不同文化和语言背景下,以及在面对不同类型的权利冲突时。因此,需要一种方法来量化LLMs在人权问题上的偏差和倾向性。
核心思路:该研究的核心思路是通过构建一系列合成场景,模拟涉及不同人权条款的权衡情境,然后利用这些场景来评估LLMs对限制人权行为的认可程度。通过分析LLMs在不同场景下的反应,可以揭示其在人权问题上的潜在偏差和倾向性。这种方法允许研究人员系统性地探索LLMs在不同人权议题上的立场,并量化其与普世人权原则的偏离程度。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 场景生成:利用合成数据生成技术,构建包含24项人权条款的1,152个场景,涵盖8种语言。2) 模型评估:使用11个主流LLMs,对每个场景进行评估,记录模型对限制人权行为的认可程度。3) 偏差分析:分析模型在不同人权类型、语言和提示方式下的反应,识别系统性偏差。4) 结果对比:对比不同LLMs的表现,以及不同评估方法(如李克特量表和开放式回答)的结果。
关键创新:该研究的关键创新在于其系统性地评估了LLMs在人权问题上的倾向性,并揭示了其在不同人权类型、语言和提示方式下的偏差。与以往的研究相比,该研究更加全面和深入地探讨了LLMs与普世人权原则的一致性问题。此外,该研究还提出了一个可重复使用的评估框架,可以用于评估其他LLMs在人权问题上的表现。
关键设计:在场景生成方面,研究人员精心设计了场景,以确保其涵盖了不同人权条款,并模拟了现实世界中可能出现的权衡情境。在模型评估方面,研究人员使用了李克特量表和开放式回答两种评估方法,以捕捉模型在不同层面的偏好。在偏差分析方面,研究人员使用了统计方法来量化模型在不同人权类型、语言和提示方式下的偏差。
🖼️ 关键图片
📊 实验亮点
研究发现,LLMs在经济、社会和文化权利方面更容易接受限制,而在政治和公民权利方面则较为保守。此外,模型在不同语言中表现出显著差异,中文和印地语对限制人权行为的认可率高于英语和罗马尼亚语。提示工程对模型行为有显著影响,且李克特量表和开放式回答的结果存在差异。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在涉及人权、伦理和社会责任等方面的表现。通过识别和纠正模型中的偏差,可以提高其在信息传播、决策支持等领域的可靠性和公正性。此外,该研究还可以为开发更负责任和符合伦理规范的AI系统提供指导。
📄 摘要(原文)
As Large Language Models (LLMs) increasingly mediate global information access with the potential to shape public discourse, their alignment with universal human rights principles becomes important to ensure that these rights are abided by in high stakes AI-mediated interactions. In this paper, we evaluate how LLMs navigate trade-offs involving the Universal Declaration of Human Rights (UDHR), leveraging 1,152 synthetically generated scenarios across 24 rights articles and eight languages. Our analysis of eleven major LLMs reveals systematic biases where models: (1) accept limiting Economic, Social, and Cultural rights more often than Political and Civil rights, (2) demonstrate significant cross-linguistic variation with elevated endorsement rates of rights-limiting actions in Chinese and Hindi compared to English or Romanian, (3) show substantial susceptibility to prompt-based steering, and (4) exhibit noticeable differences between Likert and open-ended responses, highlighting critical challenges in LLM preference assessment.