Judging with Personality and Confidence: A Study on Personality-Conditioned LLM Relevance Assessment

📄 arXiv: 2601.01862v1 📥 PDF

作者: Nuo Chen, Hanpei Fang, Piaohong Wang, Jiqun Liu, Tetsuya Sakai, Xiao-Ming Wu

分类: cs.CL, cs.IR

发布日期: 2026-01-05


💡 一句话要点

提出人格条件LLM相关性评估方法,提升评估可靠性与人对齐程度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 相关性评估 人格特质 置信度校准 信息检索 随机森林 提示学习

📋 核心要点

  1. 现有LLM在相关性评估中缺乏对人格特质的考虑,导致评估结果可能存在偏差,且置信度校准不足。
  2. 该论文提出一种人格条件LLM相关性评估方法,通过提示LLM模拟不同人格特质,并分析其对相关性判断和置信度的影响。
  3. 实验结果表明,特定人格(如低宜人性)的LLM评估结果更接近人类标注,且人格条件分数和置信度可提升评估性能。

📝 摘要(中文)

最近的研究表明,通过提示可以使大型语言模型(LLM)模拟特定的人格特质,并产生与这些特质相符的行为。然而,对于这些模拟人格如何影响关键的Web搜索决策,特别是相关性评估,人们的理解有限。此外,很少有研究考察模拟人格如何影响置信度校准,特别是过度自信或自信不足的倾向。为了填补这一空白,我们进行了一项全面的研究,评估了多个LLM,包括商业模型和开源模型,并提示它们模拟大五人格特质。我们跨三个测试集(TREC DL 2019、TREC DL 2020 和 LLMJudge)测试了这些模型,收集了每个查询-文档对的两个关键输出:相关性判断和自我报告的置信度分数。研究结果表明,低宜人性等性格比未提示条件更接近人类标签。此外,低尽责性在平衡抑制过度自信和自信不足方面表现良好。我们还观察到,相关性分数和置信度分布在不同人格之间存在系统性差异。基于上述发现,我们将人格条件分数和置信度作为随机森林分类器的特征。这种方法在新数据集(TREC DL 2021)上实现了超越最佳单一人格条件的效果,即使训练数据有限。这些发现表明,人格衍生的置信度提供了一种互补的预测信号,为更可靠和更符合人类的LLM评估器铺平了道路。

🔬 方法详解

问题定义:论文旨在解决LLM在相关性评估中存在的偏差问题,现有方法忽略了人格特质对评估结果的影响,导致评估结果与人类判断存在差异,并且LLM的置信度校准往往存在过度自信或自信不足的问题。

核心思路:论文的核心思路是利用LLM的prompting能力,使其模拟不同的人格特质(基于大五人格模型),然后观察这些模拟人格对LLM相关性判断和置信度的影响。通过分析不同人格下的评估结果,找到更符合人类判断的人格,并利用人格信息提升评估性能。

技术框架:整体框架包括以下几个步骤:1) 使用prompting技术,使LLM模拟不同的人格特质;2) 在多个benchmark数据集上,让不同人格的LLM对query-document对进行相关性判断,并给出置信度评分;3) 分析不同人格的LLM的评估结果与人类标注的差异,以及置信度校准情况;4) 将人格条件分数和置信度作为特征,训练一个随机森林分类器,用于预测相关性。

关键创新:论文的关键创新在于将人格特质引入到LLM的相关性评估中,发现不同人格的LLM在评估结果和置信度上存在系统性差异,并利用这些差异来提升评估性能。这为LLM的评估和应用提供了一个新的视角。

关键设计:论文的关键设计包括:1) 使用大五人格模型来定义LLM的人格特质;2) 设计合适的prompt,使LLM能够有效地模拟不同的人格;3) 使用多个benchmark数据集来评估不同人格的LLM的性能;4) 将人格条件分数和置信度作为特征,训练一个随机森林分类器,并验证其有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,低宜人性的人格在相关性评估中更接近人类标注。低尽责性在平衡过度自信和自信不足方面表现良好。将人格条件分数和置信度作为特征,训练的随机森林分类器在TREC DL 2021数据集上超越了最佳单一人格条件,即使在训练数据有限的情况下。

🎯 应用场景

该研究成果可应用于提升搜索引擎、推荐系统等信息检索系统的评估质量,通过模拟不同人格的评估者,可以更全面地评估系统的性能,并减少评估偏差。此外,该方法还可以用于开发更可靠和更符合人类判断的LLM评估器,从而提升LLM在各种任务中的应用效果。

📄 摘要(原文)

Recent studies have shown that prompting can enable large language models (LLMs) to simulate specific personality traits and produce behaviors that align with those traits. However, there is limited understanding of how these simulated personalities influence critical web search decisions, specifically relevance assessment. Moreover, few studies have examined how simulated personalities impact confidence calibration, specifically the tendencies toward overconfidence or underconfidence. This gap exists even though psychological literature suggests these biases are trait-specific, often linking high extraversion to overconfidence and high neuroticism to underconfidence. To address this gap, we conducted a comprehensive study evaluating multiple LLMs, including commercial models and open-source models, prompted to simulate Big Five personality traits. We tested these models across three test collections (TREC DL 2019, TREC DL 2020, and LLMJudge), collecting two key outputs for each query-document pair: a relevance judgment and a self-reported confidence score. The findings show that personalities such as low agreeableness consistently align more closely with human labels than the unprompted condition. Additionally, low conscientiousness performs well in balancing the suppression of both overconfidence and underconfidence. We also observe that relevance scores and confidence distributions vary systematically across different personalities. Based on the above findings, we incorporate personality-conditioned scores and confidence as features in a random forest classifier. This approach achieves performance that surpasses the best single-personality condition on a new dataset (TREC DL 2021), even with limited training data. These findings highlight that personality-derived confidence offers a complementary predictive signal, paving the way for more reliable and human-aligned LLM evaluators.