Evaluating LLM Alignment With Human Trust Models

📄 arXiv: 2603.05839v1 📥 PDF

作者: Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini

分类: cs.MA, cs.AI

发布日期: 2026-03-06

备注: This paper will appear in the post-proceedings of ICAART 2026


💡 一句话要点

通过对比提示分析LLM内部信任表征,揭示其社会认知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信任表征 社会认知 对比提示 激活空间分析

📋 核心要点

  1. 现有方法缺乏对LLM内部如何表征和推理信任的深入理解,阻碍了人机协作系统的有效设计。
  2. 该研究采用对比提示方法,在LLM的激活空间中生成信任和相关概念的嵌入向量,分析其内部表征。
  3. 实验结果表明,LLM的信任表征与特定的人类信任模型(如Castelfranchi模型)存在显著对齐,验证了LLM具备一定的社会认知能力。

📝 摘要(中文)

信任在人际互动和多智能体系统中至关重要,它能促进有效合作、降低不确定性并指导决策。尽管信任意义重大,但我们对大型语言模型(LLM)如何从内部概念化和推理信任的理解仍然有限。本文对EleutherAI/gpt-j-6B中的信任表征进行了白盒分析,使用对比提示在LLM的激活空间内为二元信任和相关的人际关系属性生成嵌入向量。首先,我们从五个已建立的人类信任模型中识别出与信任相关的概念。然后,通过计算60个通用情感概念的成对余弦相似度,确定了概念对齐的显著性阈值。接着,我们测量了LLM内部信任表征与导出的信任相关概念之间的余弦相似度。结果表明,EleutherAI/gpt-j-6B的内部信任表征与Castelfranchi社会认知模型最为接近,其次是Marsh模型。这些发现表明,LLM以支持有意义的比较分析的方式在其激活空间中编码社会认知结构,从而为社会认知理论提供信息,并支持人机协作系统的设计。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)如何内部表示和推理信任这一问题。现有方法缺乏对LLM内部信任机制的深入理解,这限制了我们设计能够有效与人类协作的AI系统的能力。理解LLM的信任表征有助于我们评估其社会认知能力,并指导人机交互系统的开发。

核心思路:论文的核心思路是通过分析LLM的激活空间,揭示其内部对信任相关概念的表征方式。通过对比LLM对不同信任相关概念的嵌入向量,并与人类信任模型进行比较,从而推断LLM的信任认知模式。这种方法类似于对LLM进行“心理学实验”,以理解其内部运作机制。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 概念提取:从五种已建立的人类信任模型中提取与信任相关的概念。 2. 对比提示:使用对比提示生成LLM(EleutherAI/gpt-j-6B)中这些概念的嵌入向量。 3. 相似度计算:计算LLM内部信任表征与提取的信任相关概念之间的余弦相似度。 4. 阈值确定:通过计算60个通用情感概念的成对余弦相似度,确定概念对齐的显著性阈值。 5. 结果分析:比较LLM的信任表征与不同人类信任模型的相似度,从而确定LLM最接近的信任模型。

关键创新:该研究的关键创新在于使用对比提示和激活空间分析方法,对LLM的内部信任表征进行白盒分析。这种方法不同于以往的黑盒测试,能够更深入地了解LLM的认知机制。此外,该研究还将LLM的信任表征与多种人类信任模型进行比较,从而更全面地评估LLM的社会认知能力。

关键设计: * 对比提示:设计有效的对比提示,以准确地激发LLM对信任相关概念的表征。 * 嵌入向量生成:选择合适的激活层和方法,生成具有代表性的嵌入向量。 * 相似度度量:使用余弦相似度作为度量标准,评估LLM内部表征与人类信任模型之间的相似程度。 * 阈值设定:通过分析通用情感概念的相似度分布,设定合理的显著性阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EleutherAI/gpt-j-6B的内部信任表征与Castelfranchi社会认知模型最为接近,其次是Marsh模型。这表明LLM在一定程度上能够理解和表征人类的信任概念。通过对比分析,该研究揭示了LLM内部信任表征的特点,为进一步研究LLM的社会认知能力奠定了基础。

🎯 应用场景

该研究成果可应用于人机协作系统设计、AI伦理评估和社会认知建模等领域。理解LLM的信任表征有助于构建更值得信赖和可靠的AI系统,促进人与AI之间的有效合作。此外,该研究还可以为社会认知理论提供新的视角,并推动AI伦理研究的发展。

📄 摘要(原文)

Trust plays a pivotal role in enabling effective cooperation, reducing uncertainty, and guiding decision-making in both human interactions and multi-agent systems. Although it is significant, there is limited understanding of how large language models (LLMs) internally conceptualize and reason about trust. This work presents a white-box analysis of trust representation in EleutherAI/gpt-j-6B, using contrastive prompting to generate embedding vectors within the activation space of the LLM for diadic trust and related interpersonal relationship attributes. We first identified trust-related concepts from five established human trust models. We then determined a threshold for significant conceptual alignment by computing pairwise cosine similarities across 60 general emotional concepts. Then we measured the cosine similarities between the LLM's internal representation of trust and the derived trust-related concepts. Our results show that the internal trust representation of EleutherAI/gpt-j-6B aligns most closely with the Castelfranchi socio-cognitive model, followed by the Marsh Model. These findings indicate that LLMs encode socio-cognitive constructs in their activation space in ways that support meaningful comparative analyses, inform theories of social cognition, and support the design of human-AI collaborative systems.