Traces of Social Competence in Large Language Models
作者: Tom Kouwenhoven, Michiel van der Meer, Max van Duijn
分类: cs.CL
发布日期: 2026-03-04
💡 一句话要点
通过改进的False Belief Test评估大型语言模型的社会认知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 心理理论 社会认知能力 False Belief Test 贝叶斯Logistic回归
📋 核心要点
- 现有False Belief Test在评估LLM的社会认知能力时,面临数据污染和模型细节不足等挑战。
- 论文通过构建平衡的FBT变体数据集,并结合贝叶斯Logistic回归分析,更准确地评估模型。
- 研究发现模型规模扩大通常有益,但明确的命题态度会显著改变响应模式,且受训练方式影响。
📝 摘要(中文)
本文针对大型语言模型(LLM)在心理理论(ToM)和社会认知能力评估中,因数据污染、模型细节不足和控制不一致等问题导致的False Belief Test(FBT)可靠性和解释潜力受限的现状,进行了改进。研究使用贝叶斯Logistic回归,在192个FBT变体(Trott et al. 2023)的平衡数据集上测试了17个开源模型,以确定模型大小和后训练如何影响社会认知能力。结果表明,扩大模型规模通常有益于性能,但并非绝对。一个交叉效应揭示了明确命题态度(X认为)从根本上改变了响应模式。指令调优部分缓解了这种影响,但进一步的面向推理的微调则加剧了它。通过对OLMo 2训练过程中社会推理能力的案例研究,表明这种交叉效应在预训练期间出现,表明模型获得了与心理状态词汇相关的刻板响应模式,这些模式可能超过其他场景语义。最后,向量引导使我们能够将“认为”向量分离为观察到的FBT行为的因果驱动因素。
🔬 方法详解
问题定义:现有False Belief Test (FBT) 在评估大型语言模型 (LLM) 的心理理论 (ToM) 和社会认知能力时,存在数据污染、模型细节不足以及缺乏一致性控制等问题。这些问题导致测试结果的可靠性和解释性受到限制,难以准确评估 LLM 的真实社会认知能力。
核心思路:论文的核心思路是通过构建一个平衡的、包含多种变体的 FBT 数据集,并结合贝叶斯 Logistic 回归分析,来更准确地评估 LLM 的社会认知能力。同时,通过控制模型大小、训练方式等变量,研究这些因素对模型社会认知能力的影响。此外,论文还通过向量引导技术,试图找到影响模型行为的关键因素。
技术框架:该研究的技术框架主要包括以下几个部分: 1. 数据集构建:使用 Trott et al. (2023) 提出的包含 192 个 FBT 变体的平衡数据集。 2. 模型选择:选择 17 个开源 LLM 进行测试。 3. 评估方法:使用贝叶斯 Logistic 回归分析模型在 FBT 数据集上的表现。 4. 控制变量:控制模型大小和训练方式等变量,研究它们对模型社会认知能力的影响。 5. 向量引导:使用向量引导技术,试图找到影响模型行为的关键因素,例如“认为”向量。
关键创新:论文的关键创新点在于: 1. 改进的 FBT 数据集:使用平衡的 FBT 变体数据集,减少了数据污染的影响。 2. 贝叶斯 Logistic 回归分析:使用贝叶斯 Logistic 回归分析,更准确地评估模型在 FBT 数据集上的表现。 3. 交叉效应分析:发现了明确命题态度(X 认为)对模型响应模式的显著影响。 4. 向量引导技术:使用向量引导技术,找到了影响模型行为的关键因素,例如“认为”向量。
关键设计: 1. 数据集平衡:确保 FBT 数据集中包含各种变体,以减少偏差。 2. 模型选择:选择不同大小和训练方式的 LLM,以便研究这些因素的影响。 3. 贝叶斯 Logistic 回归:使用贝叶斯 Logistic 回归,可以更好地处理数据中的不确定性。 4. 向量引导:通过调整模型的内部向量,观察模型行为的变化,从而找到关键的影响因素。
🖼️ 关键图片
📊 实验亮点
研究发现,模型规模的扩大通常有益于性能提升,但并非绝对。明确命题态度(X认为)会显著改变模型的响应模式。指令调优可以部分缓解这种影响,但面向推理的微调反而会加剧它。通过向量引导,成功分离出“认为”向量,并证实其为FBT行为的驱动因素。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的社会认知能力,使其在需要理解人类信念、意图和情感的应用场景中表现更好,例如人机交互、智能助手、社交机器人等。未来的研究可以进一步探索如何通过训练和微调来提高模型的社会认知能力,使其更加符合人类的认知模式。
📄 摘要(原文)
The False Belief Test (FBT) has been the main method for assessing Theory of Mind (ToM) and related socio-cognitive competencies. For Large Language Models (LLMs), the reliability and explanatory potential of this test have remained limited due to issues like data contamination, insufficient model details, and inconsistent controls. We address these issues by testing 17 open-weight models on a balanced set of 192 FBT variants (Trott et al. 2023) using Bayesian Logistic regression to identify how model size and post-training affect socio-cognitive competence. We find that scaling model size benefits performance, but not strictly. A cross-over effect reveals that explicating propositional attitudes (X thinks) fundamentally alters response patterns. Instruction tuning partially mitigates this effect, but further reasoning-oriented finetuning amplifies it. In a case study analysing social reasoning ability throughout OLMo 2 training, we show that this cross-over effect emerges during pre-training, suggesting that models acquire stereotypical response patterns tied to mental-state vocabulary that can outweigh other scenario semantics. Finally, vector steering allows us to isolate a think vector as the causal driver of observed FBT behaviour.