Analyzing Cognitive Differences Among Large Language Models through the Lens of Social Worldview

📄 arXiv: 2505.01967v1 📥 PDF

作者: Jiatao Li, Yanheng Li, Xiaojun Wan

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-05-04


💡 一句话要点

提出社会世界观分类法以分析大型语言模型的认知差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会世界观 认知差异 社会反馈 文化理论 隐性偏见 可解释性 社会责任

📋 核心要点

  1. 现有研究主要集中在LLMs的伦理和人口统计偏见,缺乏对更广泛社会认知态度的探讨。
  2. 本文提出社会世界观分类法(SWT),将四种经典世界观转化为可测量的子维度,以分析LLMs的认知特征。
  3. 通过实验证明,社会线索能够系统性地影响LLMs的认知态度,揭示了模型间的响应模式差异。

📝 摘要(中文)

大型语言模型(LLMs)已成为日常生活的重要组成部分,广泛应用于沟通、决策和信息检索,然而这些系统如何隐性地形成和表达社会认知态度或“世界观”仍然是一个关键问题。尽管现有研究广泛关注人口统计和伦理偏见,但对权威、平等、自主和命运等更广泛维度的研究仍然不足。本文引入了社会世界观分类法(SWT),这是一个基于文化理论的结构化框架,将四种经典世界观(等级、平等主义、个人主义、宿命论)转化为可测量的子维度。通过SWT,我们实证识别了28种不同LLMs的独特和可解释的认知特征。此外,受社会参照理论的启发,我们实验性地展示了明确的社会线索如何系统性地塑造这些认知态度,揭示了一般响应模式和模型特定的细微变化。我们的发现增强了LLMs的可解释性,揭示了隐性社会认知偏见及其对社会反馈的响应,从而指导更透明和社会责任感强的语言技术的发展。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在社会认知态度表达方面的不足,现有方法未能全面探讨其对权威、平等等社会维度的态度。

核心思路:通过引入社会世界观分类法(SWT),将复杂的社会认知态度结构化为可测量的维度,以便更好地分析和理解LLMs的认知特征。

技术框架:整体架构包括四个主要模块:1) 社会世界观分类法的构建;2) 28种LLMs的认知特征识别;3) 社会线索的实验设计;4) 数据分析与结果解释。

关键创新:最重要的创新点在于将社会世界观与LLMs的认知特征结合,系统性地揭示了模型的隐性偏见及其对社会反馈的敏感性,这在现有研究中尚属首次。

关键设计:在SWT的设计中,明确了四种世界观的子维度,并通过实验设置不同的社会线索,以观察其对LLMs认知态度的影响。

📊 实验亮点

实验结果显示,使用社会世界观分类法能够有效识别28种LLMs的认知特征,且在引入社会线索后,模型的响应模式出现显著变化,提升了对社会反馈的敏感性,增强了模型的可解释性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容生成、自动化决策支持系统以及教育技术等。通过理解LLMs的社会认知偏见,可以促进更透明和负责任的语言技术开发,从而提升用户信任和社会接受度。

📄 摘要(原文)

Large Language Models (LLMs) have become integral to daily life, widely adopted in communication, decision-making, and information retrieval, raising critical questions about how these systems implicitly form and express socio-cognitive attitudes or "worldviews". While existing research extensively addresses demographic and ethical biases, broader dimensions-such as attitudes toward authority, equality, autonomy, and fate-remain under-explored. In this paper, we introduce the Social Worldview Taxonomy (SWT), a structured framework grounded in Cultural Theory, operationalizing four canonical worldviews (Hierarchy, Egalitarianism, Individualism, Fatalism) into measurable sub-dimensions. Using SWT, we empirically identify distinct and interpretable cognitive profiles across 28 diverse LLMs. Further, inspired by Social Referencing Theory, we experimentally demonstrate that explicit social cues systematically shape these cognitive attitudes, revealing both general response patterns and nuanced model-specific variations. Our findings enhance the interpretability of LLMs by revealing implicit socio-cognitive biases and their responsiveness to social feedback, thus guiding the development of more transparent and socially responsible language technologies.