The Bias is in the Details: An Assessment of Cognitive Bias in LLMs

📄 arXiv: 2509.22856v1 📥 PDF

作者: R. Alexander Knipper, Charles S. Knipper, Kaiqi Zhang, Valerie Sims, Clint Bowers, Santu Karmaker

分类: cs.CL

发布日期: 2025-09-26


💡 一句话要点

评估LLM认知偏差:揭示模型在决策中存在的系统性偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知偏差 决策制定 评估框架 提示工程

📋 核心要点

  1. 大型语言模型在决策中应用日益广泛,但其潜在的认知偏差可能导致决策失误,需要深入评估。
  2. 论文提出一种新颖的评估框架,通过多项选择任务和人工设计的场景,系统性地评估LLM中的多种认知偏差。
  3. 实验结果表明,LLM确实存在认知偏差,且模型大小和提示细节会显著影响偏差的程度。

📝 摘要(中文)

随着大型语言模型(LLM)越来越多地嵌入到现实世界的决策过程中,检验它们在多大程度上表现出认知偏差至关重要。认知偏差在心理学领域被广泛研究,表现为人类判断中常见的系统性扭曲。本文对45个LLM的八种已知的认知偏差进行了大规模评估,分析了通过控制提示变化生成的超过280万个LLM响应。为此,我们引入了一种基于多项选择任务的新型评估框架,与心理学家合作,手工策划了一个包含220个决策场景的数据集,针对基本的认知偏差,并提出了一种可扩展的方法,用于从人工编写的场景模板中生成多样化的提示。我们的分析表明,LLM在17.8%-57.3%的实例中表现出与偏差一致的行为,涵盖了一系列针对锚定效应、可得性启发、确认偏差、框架效应、解释偏差、过度归因、前景理论和代表性偏差的判断和决策情境。我们发现模型大小和提示特异性对偏差敏感性有显著影响:较大的模型(>32B参数)可以在39.5%的情况下减少偏差,而更高的提示细节可以将大多数偏差降低高达14.9%,但在一种情况下(过度归因)偏差会加剧高达8.8%。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在决策过程中表现出的认知偏差。现有方法缺乏系统性的评估框架,难以全面衡量LLM在各种认知偏差下的表现,并且缺乏足够规模和多样性的测试数据。

核心思路:论文的核心思路是构建一个可控的实验环境,通过设计针对特定认知偏差的场景和提示,观察LLM的响应是否表现出与偏差一致的行为。通过大规模的实验,量化LLM对不同认知偏差的敏感程度,并分析模型大小和提示细节对偏差的影响。

技术框架:该研究的技术框架主要包含以下几个阶段:1) 数据集构建:与心理学家合作,手工策划包含220个决策场景的数据集,每个场景针对一种或多种认知偏差。2) 提示生成:提出一种可扩展的方法,从人工编写的场景模板中生成多样化的提示,以增加实验的鲁棒性。3) 模型评估:使用45个LLM,针对每个场景生成多个响应,并分析响应中是否存在与偏差一致的行为。4) 结果分析:统计LLM在不同认知偏差下的表现,并分析模型大小和提示细节对偏差的影响。

关键创新:论文的关键创新在于:1) 提出了一个系统性的评估框架,用于量化LLM中的认知偏差。2) 构建了一个大规模、高质量的认知偏差数据集,涵盖多种偏差类型和场景。3) 提出了一种可扩展的提示生成方法,提高了实验的可靠性。

关键设计:数据集中的每个场景都设计成多项选择题的形式,每个选项对应一种可能的决策结果。提示的设计考虑了不同的细节程度,以评估提示细节对偏差的影响。实验中使用了多种LLM,包括不同大小和架构的模型,以评估模型大小对偏差的影响。对于每个LLM和每个场景,生成多个响应,并统计与偏差一致的响应比例。

📊 实验亮点

实验结果表明,LLM在17.8%-57.3%的实例中表现出与偏差一致的行为。较大的模型(>32B参数)可以在39.5%的情况下减少偏差,而更高的提示细节可以将大多数偏差降低高达14.9%,但在过度归因偏差中,提示细节的增加反而会加剧偏差高达8.8%。

🎯 应用场景

该研究成果可应用于评估和改进LLM在决策支持系统、风险评估、医疗诊断等领域的应用。通过识别和减轻LLM中的认知偏差,可以提高决策的公平性、准确性和可靠性,避免潜在的负面影响。未来的研究可以进一步探索如何利用这些发现来开发更鲁棒、更值得信赖的AI系统。

📄 摘要(原文)

As Large Language Models (LLMs) are increasingly embedded in real-world decision-making processes, it becomes crucial to examine the extent to which they exhibit cognitive biases. Extensively studied in the field of psychology, cognitive biases appear as systematic distortions commonly observed in human judgments. This paper presents a large-scale evaluation of eight well-established cognitive biases across 45 LLMs, analyzing over 2.8 million LLM responses generated through controlled prompt variations. To achieve this, we introduce a novel evaluation framework based on multiple-choice tasks, hand-curate a dataset of 220 decision scenarios targeting fundamental cognitive biases in collaboration with psychologists, and propose a scalable approach for generating diverse prompts from human-authored scenario templates. Our analysis shows that LLMs exhibit bias-consistent behavior in 17.8-57.3% of instances across a range of judgment and decision-making contexts targeting anchoring, availability, confirmation, framing, interpretation, overattribution, prospect theory, and representativeness biases. We find that both model size and prompt specificity play a significant role on bias susceptibility as follows: larger size (>32B parameters) can reduce bias in 39.5% of cases, while higher prompt detail reduces most biases by up to 14.9%, except in one case (Overattribution), which is exacerbated by up to 8.8%.