ChatGPT is not A Man but Das Man: Representativeness and Structural Consistency of Silicon Samples Generated by Large Language Models
作者: Dai Li, Linzhuo Li, Huilian Sophie Qiu
分类: cs.CL, cs.CY, cs.ET
发布日期: 2025-06-25
💡 一句话要点
提出准确性优化假设以解决LLM在民意调查中的代表性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 民意调查 结构一致性 同质化 准确性优化假设 社会科学研究 政策制定
📋 核心要点
- 现有大型语言模型在模拟人类意见时存在结构一致性缺失和少数意见同质化的问题。
- 论文提出了准确性优化假设,认为同质化是由于优先考虑模态响应所致。
- 实验结果显示,LLM的响应在结构一致性和多样性上显著低于人类数据。
📝 摘要(中文)
大型语言模型(LLMs)如ChatGPT和Llama被提议作为模拟人类意见的“硅样本”。本研究探讨了这一观点,认为LLMs可能会误表达人口层面的意见。我们识别出两个基本挑战:结构一致性缺失,即响应准确性在不同人口聚合层次上不一致,以及同质化,即少数意见的代表性不足。通过对ChatGPT(GPT-4)和Meta的Llama 3.1系列进行调查,我们发现LLM的响应与人类数据相比存在显著的结构不一致性和严重的同质化问题。我们提出了“准确性优化假设”,认为同质化源于对模态响应的优先考虑。这些问题挑战了将LLMs作为人类调查数据直接替代品的有效性,可能会强化刻板印象并误导政策。
🔬 方法详解
问题定义:本研究旨在解决大型语言模型在模拟人类意见时的代表性和结构一致性问题。现有方法在不同人口聚合层次上响应准确性不一致,且少数群体的意见被严重低估。
核心思路:论文提出“准确性优化假设”,认为LLMs的同质化现象源于对模态响应的优先考虑。这一假设为理解LLMs的局限性提供了新的视角。
技术框架:研究通过对ChatGPT(GPT-4)和Meta的Llama 3.1系列进行实验,使用美国国家选举研究(ANES)2020的数据,分析其对堕胎和非法移民问题的响应。主要模块包括数据收集、模型响应生成和结果分析。
关键创新:本研究的创新点在于系统性地揭示了LLMs在模拟人类意见时的结构不一致性和同质化问题,提出了准确性优化假设,强调了对模态响应的偏好对结果的影响。
关键设计:实验中使用了不同规模的Llama模型(8B、70B、405B),并对其响应进行定量分析,比较其与人类数据的差异,重点关注响应的多样性和准确性。
📊 实验亮点
实验结果显示,LLM的响应在结构一致性和多样性上显著低于人类数据,尤其在堕胎和非法移民问题上,存在严重的同质化现象。这一发现强调了LLMs作为人类调查数据替代品的局限性,可能导致政策制定中的刻板印象和误导。
🎯 应用场景
该研究的潜在应用领域包括政策制定、社会调查和市场研究等。通过揭示大型语言模型在模拟人类意见时的局限性,研究为如何更有效地利用LLMs提供了重要的指导,避免在决策过程中产生误导。未来,改进LLMs的代表性和一致性将对社会科学研究产生深远影响。
📄 摘要(原文)
Large language models (LLMs) in the form of chatbots like ChatGPT and Llama are increasingly proposed as "silicon samples" for simulating human opinions. This study examines this notion, arguing that LLMs may misrepresent population-level opinions. We identify two fundamental challenges: a failure in structural consistency, where response accuracy doesn't hold across demographic aggregation levels, and homogenization, an underrepresentation of minority opinions. To investigate these, we prompted ChatGPT (GPT-4) and Meta's Llama 3.1 series (8B, 70B, 405B) with questions on abortion and unauthorized immigration from the American National Election Studies (ANES) 2020. Our findings reveal significant structural inconsistencies and severe homogenization in LLM responses compared to human data. We propose an "accuracy-optimization hypothesis," suggesting homogenization stems from prioritizing modal responses. These issues challenge the validity of using LLMs, especially chatbots AI, as direct substitutes for human survey data, potentially reinforcing stereotypes and misinforming policy.