UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs

作者: Prameshwar Thiyagarajan, Vaishnavi Parimi, Shamant Sai, Soumil Garg, Zhangir Meirbek, Nitin Yarlagadda, Kevin Zhu, Chris Kim

分类: cs.CL, cs.AI

发布日期: 2025-06-11

备注: Accepted at Conference of the North American Chapter of the Association for Computational Linguistics, Student Research Workshop 2025 (NAACL SRW 2025)

🔗 代码/项目: GITHUB

💡 一句话要点

提出UniToMBench以提升大型语言模型的心智理论能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心智理论 大型语言模型 多交互任务 社会认知 评估基准

📋 核心要点

当前大型语言模型在理解人类心理状态方面存在显著不足，尤其是在心智理论（ToM）相关任务中表现不佳。
本文提出的UniToMBench通过整合多交互任务设计和演变故事场景，系统性地提升LLMs的ToM能力，提供了一个统一的评估基准。
实验结果表明，尽管部分模型在情感和信念任务中表现优异，但在知识基础任务中存在较大性能波动，凸显了当前模型的局限性。

📝 摘要（中文）

心智理论（ToM）是理解自身及他人心理状态的能力，但大型语言模型（LLMs）在准确预测人类心理状态方面仍面临挑战。本文提出了UniToMBench，这是一个统一的基准，结合了SimToM和TOMBENCH的优势，通过多交互任务设计和演变故事场景系统性地提升和评估LLMs的ToM能力。UniToMBench支持超过1000个手写场景的自定义数据集，结合视角采集技术与多样化评估指标，以更好地激发LLMs的社会认知。评估结果显示，尽管GPT-4o和GPT-4o Mini在情感和信念相关场景任务中表现出色，准确率通常超过80%，但在知识基础任务中的表现存在显著差异。这些结果突显了当前LLMs在ToM相关任务中的优势与局限性，强调了UniToMBench作为未来开发的综合工具的价值。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在心智理论（ToM）任务中的表现不佳问题，现有方法在理解人类心理状态时存在显著不足，尤其是在知识基础任务中表现不稳定。

核心思路：UniToMBench通过结合多交互任务设计和演变故事场景，提供了一个系统化的评估框架，以提升LLMs的ToM能力，特别是通过视角采集技术来增强模型的社会认知能力。

技术框架：UniToMBench的整体架构包括数据集构建、任务设计、模型评估和结果分析四个主要模块。数据集包含超过1000个手写场景，任务设计则涵盖情感、信念和知识基础等多种类型。

关键创新：UniToMBench的主要创新在于其综合性和系统性，结合了SimToM和TOMBENCH的优点，提供了多样化的评估指标和任务设计，显著提升了对LLMs的ToM能力的评估深度。

关键设计：在设计中，UniToMBench采用了多种评估指标，包括准确率和任务完成度，同时在损失函数和网络结构上进行了优化，以适应不同类型的任务需求。

📊 实验亮点

实验结果显示，GPT-4o和GPT-4o Mini在情感和信念相关任务中的准确率超过80%，但在知识基础任务中表现波动较大。这一发现强调了当前模型在ToM任务中的优势与局限性，突显了UniToMBench作为评估工具的重要性。

🎯 应用场景

该研究的潜在应用领域包括人机交互、教育技术和心理健康评估等。通过提升大型语言模型的心智理论能力，可以更好地理解和预测用户的情感与需求，从而提供更为个性化的服务和支持。未来，UniToMBench有望成为评估和提升LLMs社会认知能力的重要工具。

📄 摘要（原文）

Theory of Mind (ToM), the ability to understand the mental states of oneself and others, remains a challenging area for large language models (LLMs), which often fail to predict human mental states accurately. In this paper, we introduce UniToMBench, a unified benchmark that integrates the strengths of SimToM and TOMBENCH to systematically improve and assess ToM capabilities in LLMs by integrating multi-interaction task designs and evolving story scenarios. Supported by a custom dataset of over 1,000 hand-written scenarios, UniToMBench combines perspective-taking techniques with diverse evaluation metrics to better stimulate social cognition in LLMs. Through evaluation, we observe that while models like GPT-4o and GPT-4o Mini show consistently high accuracy in tasks involving emotional and belief-related scenarios, with results usually above 80%, there is significant variability in their performance across knowledge-based tasks. These results highlight both the strengths and limitations of current LLMs in ToM-related tasks, underscoring the value of UniToMBench as a comprehensive tool for future development. Our code is publicly available here: https://github.com/Shamant/unifiedtombenchmark.

UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册