Acquiescence Bias in Large Language Models
作者: Daniel Braun
分类: cs.CL
发布日期: 2025-09-10
备注: Accepted to EMNLP 2025 Findings
💡 一句话要点
揭示大语言模型中的反向顺从偏差:倾向于回答“否”
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 顺从偏差 认知偏差 自然语言处理 实验分析
📋 核心要点
- 人类的顺从偏差研究充分,但LLM是否具备类似偏差尚不明确,这影响了LLM在调查和问答场景的可靠性。
- 该研究通过设计实验,在不同模型、任务和语言下测试LLM对肯定和否定回答的倾向性。
- 实验结果表明,LLM表现出与人类相反的偏差,即倾向于回答“否”,这与人类的顺从偏差相反。
📝 摘要(中文)
顺从偏差,即人们在调查中倾向于同意陈述,而与他们的实际信念无关,已被广泛研究和记录。由于大型语言模型(LLM)已被证明很容易受到输入中相对较小的变化的影响,并且是在人类生成的数据上训练的,因此有理由认为它们可能表现出类似的倾向。我们进行了一项研究,调查了LLM在不同模型、任务和语言(英语、德语和波兰语)中是否存在顺从偏差。我们的结果表明,与人类相反,LLM表现出一种倾向于回答“否”的偏差,无论它表示同意还是不同意。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)是否存在顺从偏差,即在没有实际信念的情况下倾向于同意调查中的陈述。现有方法主要关注人类的顺从偏差,而忽略了LLM可能存在的类似偏差。如果LLM存在顺从偏差,会影响其在问答、调查等任务中的可靠性,导致结果失真。
核心思路:核心思路是通过设计特定的实验,评估LLM在面对肯定和否定陈述时,回答“是”或“否”的倾向性。通过对比LLM在不同任务、模型和语言下的表现,分析其是否存在系统性的顺从偏差。与人类的顺从偏差(倾向于回答“是”)进行对比,揭示LLM独特的偏差特征。
技术框架:该研究采用实验方法,主要流程包括:1) 选择不同的LLM模型(具体模型未知);2) 设计包含肯定和否定陈述的调查问卷;3) 使用不同语言(英语、德语、波兰语)进行测试;4) 分析LLM对肯定和否定陈述的回答倾向性,统计回答“是”和“否”的比例;5) 对比不同模型、任务和语言下的结果,评估顺从偏差的程度。
关键创新:该研究的关键创新在于首次关注并揭示了LLM中存在的反向顺从偏差,即LLM倾向于回答“否”,这与人类的顺从偏差相反。这一发现挑战了人们对LLM行为模式的认知,并为后续研究提供了新的方向。
关键设计:具体的技术细节未知,但可以推测关键设计包括:1) 调查问卷的设计,需要保证陈述的清晰性和客观性,避免引入其他偏差;2) 评估指标的选择,需要能够准确反映LLM的回答倾向性;3) 实验参数的设置,例如温度系数等,可能会影响LLM的回答结果,需要进行合理的调整。
📊 实验亮点
实验结果表明,LLM普遍存在反向顺从偏差,即倾向于回答“否”,这与人类的顺从偏差相反。具体性能数据未知,但该发现具有重要意义,揭示了LLM与人类在认知偏差上的差异,为后续研究提供了新的方向。
🎯 应用场景
该研究成果可应用于提升LLM在问答系统、调查分析等领域的可靠性。通过了解LLM的反向顺从偏差,可以设计更有效的提示工程方法,减少偏差对结果的影响。此外,该研究也为开发更值得信任和对齐人类价值观的LLM提供了新的思路。
📄 摘要(原文)
Acquiescence bias, i.e. the tendency of humans to agree with statements in surveys, independent of their actual beliefs, is well researched and documented. Since Large Language Models (LLMs) have been shown to be very influenceable by relatively small changes in input and are trained on human-generated data, it is reasonable to assume that they could show a similar tendency. We present a study investigating the presence of acquiescence bias in LLMs across different models, tasks, and languages (English, German, and Polish). Our results indicate that, contrary to humans, LLMs display a bias towards answering no, regardless of whether it indicates agreement or disagreement.