LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations
作者: Viet-Thanh Pham, Lizhen Qu, Thuy-Trang Vu, Gholamreza Haffari, Dinh Phung
分类: cs.AI
发布日期: 2026-03-02
💡 一句话要点
LiveCultureBench:一个用于动态社会模拟中评估大语言模型的多智能体、多文化基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 多智能体系统 社会模拟 文化适应性 基准测试 自动化评估 规范遵守
📋 核心要点
- 现有LLM智能体评估主要关注任务完成度,忽略了文化适应性和评估者可靠性,存在局限性。
- LiveCultureBench通过构建多文化动态社会模拟环境,评估LLM智能体在任务完成和遵守社会文化规范方面的表现。
- 实验分析了LLM智能体的跨文化鲁棒性、有效性与规范敏感性的平衡,以及LLM评估的可靠性。
📝 摘要(中文)
本文提出LiveCultureBench,一个多文化、动态的基准测试,旨在评估大语言模型(LLMs)作为智能体在模拟城镇中的表现,侧重于文化适应性和评估者可靠性,而非仅仅是任务成功率。该模拟将小城市建模为位置图,其中包含具有不同人口统计和文化背景的合成居民。每个episode为一个居民分配一个日常目标,而其他居民提供社会背景。基于LLM的验证器生成关于规范违规和任务进度的结构化判断,我们将其聚合为指标,以捕捉任务-规范的权衡和验证者的不确定性。通过LiveCultureBench,我们研究了LLM智能体的跨文化鲁棒性,它们如何在有效性和规范敏感性之间取得平衡,以及LLM作为评判者的评估在自动基准测试中何时可靠,何时需要人工监督。
🔬 方法详解
问题定义:现有的大语言模型智能体评估主要集中在任务完成的成功率上,而忽略了智能体在不同文化环境下的适应性和对社会规范的遵守情况。此外,评估过程的可靠性也缺乏关注,尤其是在自动化评估中,LLM作为评估者的表现是否可靠是一个关键问题。
核心思路:LiveCultureBench的核心思路是将LLM智能体嵌入到一个模拟的、多文化的社会环境中,通过观察它们在完成日常任务的同时,是否能够遵守当地的社会文化规范来评估其性能。这种方法不仅考虑了任务的完成情况,还考虑了智能体的社会适应性。
技术框架:LiveCultureBench的整体框架包含以下几个主要模块:1) 社会环境模拟器:构建一个包含多个地点和具有不同文化背景的合成居民的城市模型。2) 任务分配器:为每个居民分配一个日常任务。3) LLM智能体:将LLM作为智能体嵌入到模拟环境中,负责执行任务并与环境中的其他居民互动。4) LLM验证器:使用另一个LLM作为验证器,评估智能体在执行任务过程中是否违反了社会文化规范,并判断任务完成情况。5) 指标计算器:根据验证器的判断结果,计算任务完成度、规范遵守情况以及验证器的不确定性等指标。
关键创新:LiveCultureBench的关键创新在于它提供了一个动态的、多文化的评估环境,能够全面评估LLM智能体的社会适应性。此外,使用LLM作为验证器进行自动化评估也是一个创新点,但同时也需要考虑LLM验证器的可靠性。
关键设计:在社会环境模拟器中,需要精心设计居民的文化背景、社会规范以及地点之间的关系。在LLM智能体的设计中,需要考虑如何让智能体理解和遵守不同的社会文化规范。在LLM验证器的设计中,需要确保验证器能够准确判断智能体是否违反了规范,并能够量化验证的不确定性。指标计算器需要设计合理的指标来衡量任务完成度、规范遵守情况以及验证器的可靠性。
🖼️ 关键图片
📊 实验亮点
论文通过LiveCultureBench对多个LLM进行了评估,发现不同LLM在跨文化环境下的表现存在差异,某些模型在特定文化背景下更容易违反社会规范。实验还表明,LLM作为验证器的可靠性受到多种因素的影响,在某些情况下需要人工监督。
🎯 应用场景
LiveCultureBench可用于评估和改进LLM智能体在各种社会环境中的表现,例如客户服务、社交机器人和虚拟助手。通过提高LLM智能体的文化敏感性和社会适应性,可以使其在实际应用中更加有效和可靠,从而促进人机协作和跨文化交流。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed as autonomous agents, yet evaluations focus primarily on task success rather than cultural appropriateness or evaluator reliability. We introduce LiveCultureBench, a multi-cultural, dynamic benchmark that embeds LLMs as agents in a simulated town and evaluates them on both task completion and adherence to socio-cultural norms. The simulation models a small city as a location graph with synthetic residents having diverse demographic and cultural profiles. Each episode assigns one resident a daily goal while others provide social context. An LLM-based verifier generates structured judgments on norm violations and task progress, which we aggregate into metrics capturing task-norm trade-offs and verifier uncertainty. Using LiveCultureBench across models and cultural profiles, we study (i) cross-cultural robustness of LLM agents, (ii) how they balance effectiveness against norm sensitivity, and (iii) when LLM-as-a-judge evaluation is reliable for automated benchmarking versus when human oversight is needed.