How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation

📄 arXiv: 2312.17115v2 📥 PDF

作者: Yang Xiao, Yi Cheng, Jinlan Fu, Jiashuo Wang, Wenjie Li, Pengfei Liu

分类: cs.CL, cs.CY

发布日期: 2023-12-28 (更新: 2024-06-15)


💡 一句话要点

提出SimulateBench,评估LLM在模拟人类行为时的可信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人类行为模拟 可信度评估 一致性 鲁棒性 评估基准 SimulateBench

📋 核心要点

  1. 现有方法缺乏对LLM模拟人类行为的系统评估,导致LLM的可信度难以衡量。
  2. 论文提出SimulateBench,通过一致性和鲁棒性两个维度来评估LLM模拟人类行为的可信度。
  3. 实验结果表明,当前LLM在角色行为对齐和抗扰动方面存在不足,有待进一步提升。

📝 摘要(中文)

近年来,人工智能在模拟人类行为方面表现出卓越的能力,特别是那些由大型语言模型(LLM)实现的行为。然而,由于缺乏对LLM模拟行为的系统评估,LLM在人类中的可信度仍然模糊,即不清楚LLM的哪些行为令人信服地像人类,哪些需要进一步改进。在这项工作中,我们设计了SimulateBench来评估LLM在模拟人类行为时的可信度。具体来说,我们基于两个关键维度评估LLM的可信度:1) 一致性:LLM的行为与给定的人类信息保持一致的程度;2) 鲁棒性:LLM模拟行为在面对扰动时保持鲁棒性的能力。SimulateBench包括65个角色配置文件和总共8,400个问题,以检查LLM的模拟行为。基于SimulateBench,我们评估了10个广泛使用的LLM在模拟角色时的性能。实验结果表明,当前的LLM难以将其行为与分配的角色对齐,并且容易受到某些因素的扰动。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLM)在模拟人类行为时的可信度问题。现有方法缺乏统一的评估标准和数据集,难以判断LLM模拟行为的真实性和可靠性,也无法有效指导LLM在行为模拟方面的改进。

核心思路:论文的核心思路是构建一个综合性的评估基准SimulateBench,通过考察LLM在模拟特定角色时的一致性和鲁棒性来衡量其可信度。一致性评估LLM是否能根据角色信息做出符合设定的行为;鲁棒性评估LLM在面对信息扰动时,能否保持行为的合理性。

技术框架:SimulateBench包含以下几个关键组成部分: 1. 角色配置文件:包含65个不同背景和性格的角色设定。 2. 问题集:针对每个角色设计了包含8400个问题的测试集,涵盖各种情境和行为。 3. 评估指标:定义了一致性和鲁棒性两个维度的评估指标,用于量化LLM的模拟行为表现。 4. 基线模型:选取了10个广泛使用的LLM作为基线模型进行评估和比较。

关键创新:SimulateBench的关键创新在于: 1. 综合性评估框架:首次提出了从一致性和鲁棒性两个维度评估LLM模拟人类行为的可信度。 2. 大规模数据集:构建了包含大量角色和问题的评估数据集,为LLM的评估提供了充足的数据支撑。 3. 可复现性:提供了详细的评估流程和代码,方便研究者进行复现和扩展。

关键设计:SimulateBench的关键设计包括: 1. 角色配置文件的多样性:确保角色涵盖不同的年龄、职业、性格等特征,以评估LLM在不同角色模拟中的表现。 2. 问题设计的合理性:问题设计围绕角色的日常生活、工作和社交等方面展开,力求真实反映人类行为。 3. 扰动因素的设计:在鲁棒性评估中,引入了信息缺失、信息冲突等扰动因素,以考察LLM在复杂环境下的表现。

📊 实验亮点

实验结果表明,当前LLM在SimulateBench上的表现仍有较大提升空间。具体来说,LLM在一致性方面表现较差,难以始终如一地按照角色设定进行行为模拟。在鲁棒性方面,LLM容易受到信息扰动的影响,导致行为出现偏差。这些结果揭示了当前LLM在模拟人类行为方面的局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于多个领域,例如:虚拟助手、游戏AI、社交机器人等。通过提高LLM模拟人类行为的可信度,可以使这些应用更加自然、智能和用户友好。此外,SimulateBench可以作为LLM研究的评估工具,推动LLM在行为模拟方面的进一步发展。

📄 摘要(原文)

In recent years, AI has demonstrated remarkable capabilities in simulating human behaviors, particularly those implemented with large language models (LLMs). However, due to the lack of systematic evaluation of LLMs' simulated behaviors, the believability of LLMs among humans remains ambiguous, i.e., it is unclear which behaviors of LLMs are convincingly human-like and which need further improvements. In this work, we design SimulateBench to evaluate the believability of LLMs when simulating human behaviors. In specific, we evaluate the believability of LLMs based on two critical dimensions: 1) consistency: the extent to which LLMs can behave consistently with the given information of a human to simulate; and 2) robustness: the ability of LLMs' simulated behaviors to remain robust when faced with perturbations. SimulateBench includes 65 character profiles and a total of 8,400 questions to examine LLMs' simulated behaviors. Based on SimulateBench, we evaluate the performances of 10 widely used LLMs when simulating characters. The experimental results reveal that current LLMs struggle to align their behaviors with assigned characters and are vulnerable to perturbations in certain factors.