RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

📄 arXiv: 2312.16132v2 📥 PDF

作者: Tianhao Shen, Sun Li, Quan Tu, Deyi Xiong

分类: cs.CL

发布日期: 2023-12-26 (更新: 2024-02-16)

备注: Our dataset is available at https://github.com/Magnetic2014/RoleEval


💡 一句话要点

提出RoleEval双语角色评估基准,用于评估大语言模型的角色知识

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 角色知识 评估基准 双语数据集 多跳推理

📋 核心要点

  1. 现有大语言模型缺乏针对角色知识的系统评估基准,限制了其在角色扮演和沉浸式交互中的应用。
  2. RoleEval构建了一个双语角色评估基准,包含全球和中国流行角色,考察模型的记忆、利用和推理能力。
  3. 实验表明,不同模型在不同文化背景的角色知识上表现差异显著,凸显了角色知识评估的重要性。

📝 摘要(中文)

大型语言模型的快速发展需要有效的基准来评估其角色知识,这对于建立与现实世界的联系和提供更具沉浸感的交互至关重要。本文介绍RoleEval,这是一个双语基准,旨在评估角色知识的记忆、利用和推理能力。RoleEval包括RoleEval-Global(包含国际认可的角色)和RoleEval-Chinese(包含在中国流行的角色),包含6000个中英文平行选择题,侧重于来自名人、动漫、漫画、电影、电视剧、游戏和小说等各个领域的300位有影响力的人物和虚构角色。这些问题涵盖基本知识和多跳推理能力,旨在系统地探究角色的个人信息、关系、能力和经历等各个方面。为了保持高标准,我们执行了自动和人工验证相结合的混合质量检查过程,确保问题具有多样性、挑战性和区分性。我们使用RoleEval对各种开源和专有大型语言模型在零样本和少样本设置下进行了广泛的评估,揭示了深刻的发现。值得注意的是,虽然GPT-4在RoleEval-Global上优于其他模型,但中国大型语言模型在RoleEval-Chinese上表现出色,突出了显著的知识分布差异。我们期望RoleEval能够突出评估各种语言和文化背景下大型语言模型的角色知识的重要性。

🔬 方法详解

问题定义:现有的大语言模型在角色扮演和沉浸式交互方面表现不足,一个关键原因是缺乏对角色知识的系统评估。现有的评估方法通常侧重于通用知识或特定领域的知识,而忽略了角色扮演所需的特定角色知识,例如角色的个人信息、关系、能力和经历等。因此,需要一个专门的基准来评估大语言模型对角色知识的掌握程度。

核心思路:RoleEval的核心思路是构建一个包含多样化角色和问题的双语基准,以系统地评估大语言模型对角色知识的记忆、利用和推理能力。通过设计涵盖不同文化背景和知识类型的选择题,RoleEval能够全面地考察模型对角色知识的理解和应用。同时,采用混合质量检查流程,确保问题的质量和区分度。

技术框架:RoleEval的整体框架包括以下几个主要阶段:1) 角色选择:选择来自不同领域(名人、动漫、漫画、电影、电视剧、游戏和小说等)的300位有影响力的人物和虚构角色,包括国际认可的角色和在中国流行的角色。2) 问题生成:针对每个角色,生成涵盖个人信息、关系、能力和经历等方面的选择题,包括基本知识题和多跳推理题。3) 数据标注:为每个问题标注正确答案。4) 质量检查:采用自动和人工验证相结合的混合质量检查流程,确保问题的质量和区分度。5) 模型评估:使用RoleEval对各种开源和专有大型语言模型进行评估,分析模型的表现。

关键创新:RoleEval的关键创新在于:1) 提出了一个专门用于评估大语言模型角色知识的双语基准。2) 涵盖了全球和中国流行角色,考虑了不同文化背景下的角色知识。3) 设计了涵盖基本知识和多跳推理能力的问题,全面考察模型对角色知识的理解和应用。4) 采用了混合质量检查流程,确保问题的质量和区分度。

关键设计:RoleEval的关键设计包括:1) 选择题的形式,方便模型进行预测和评估。2) 多样化的角色选择,涵盖不同领域和文化背景。3) 涵盖不同知识类型的问题,包括个人信息、关系、能力和经历等。4) 多跳推理题的设计,考察模型的推理能力。5) 混合质量检查流程,包括自动检查和人工验证。

📊 实验亮点

实验结果表明,GPT-4在RoleEval-Global上表现优于其他模型,而中国大型语言模型在RoleEval-Chinese上表现出色,突出了不同模型在不同文化背景下的角色知识分布差异。此外,实验还揭示了模型在基本知识和多跳推理方面的表现差异,为模型改进提供了方向。

🎯 应用场景

RoleEval可应用于评估和提升大语言模型在角色扮演、虚拟助手、游戏AI等领域的性能。通过使用RoleEval进行评估,可以发现模型在角色知识方面的不足,并针对性地进行改进。此外,RoleEval还可以用于比较不同模型在角色知识方面的表现,为模型选择提供参考。未来,RoleEval可以扩展到更多语言和文化背景,并涵盖更多类型的角色知识。

📄 摘要(原文)

The rapid evolution of large language models necessitates effective benchmarks for evaluating their role knowledge, which is essential for establishing connections with the real world and providing more immersive interactions. This paper introduces RoleEval, a bilingual benchmark designed to assess the memorization, utilization, and reasoning capabilities of role knowledge. RoleEval comprises RoleEval-Global (including internationally recognized characters) and RoleEval-Chinese (including characters popular in China), with 6,000 Chinese-English parallel multiple-choice questions focusing on 300 influential people and fictional characters drawn from a variety of domains including celebrities, anime, comics, movies, TV series, games, and fictions. These questions cover basic knowledge and multi-hop reasoning abilities, aiming to systematically probe various aspects such as personal information, relationships, abilities, and experiences of the characters. To maintain high standards, we perform a hybrid quality check process combining both automatic and human verification, ensuring that the questions are diverse, challenging, and discriminative. Our extensive evaluations with RoleEval across various open-source and proprietary large language models, under both the zero- and few-shot settings, reveal insightful findings. Notably, while GPT-4 outperforms other models on RoleEval-Global, Chinese large language models excel on RoleEval-Chinese, highlighting significant knowledge distribution differences. We expect that RoleEval would highlight the significance of assessing role knowledge for large language models across various languages and cultural settings.