Silicon Minds versus Human Hearts: The Wisdom of Crowds Beats the Wisdom of AI in Emotion Recognition
作者: Mustafa Akben, Vinayaka Gude, Haya Ajjan
分类: cs.AI, cs.CV, cs.CY
发布日期: 2025-08-12
💡 一句话要点
研究表明众智在情感识别中优于人工智能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感识别 人工智能 多模态学习 人机协作 集体智慧 情感计算 大型语言模型
📋 核心要点
- 现有的情感识别方法主要依赖于单一的AI模型,缺乏对人类集体智慧的有效利用。
- 本研究通过使用RMET和MRMET测试评估MLLMs的情感识别能力,并与人类专家进行比较。
- 实验结果表明,尽管MLLMs在个体识别上表现良好,但人类集体决策的准确性显著更高,显示出众智的优势。
📝 摘要(中文)
人类识别微妙情感线索的能力是社会智能的基础。随着人工智能(AI)的普及,AI在识别和响应人类情感方面的能力变得至关重要。本研究评估了多模态大型语言模型(MLLMs)的情感识别能力,并与人类参与者的表现进行了比较。结果显示,MLLMs在准确识别情感方面的表现优于人类,但当模拟集体智能时,人类群体的表现显著超过了MLLM的预测。研究还表明,结合人类和MLLM预测的协作方法能够实现更高的准确性。这些发现为情感智能AI系统的发展提供了重要启示。
🔬 方法详解
问题定义:本研究旨在解决多模态大型语言模型(MLLMs)在情感识别中的有效性与人类专家的比较问题。现有方法往往忽视了人类集体智慧在情感识别中的潜力。
核心思路:通过对MLLMs进行系统评估,利用RMET和MRMET测试,比较其与人类在情感识别上的表现,探索人类与AI的协作潜力。
技术框架:研究采用了多模态测试框架,首先对MLLMs进行情感识别能力的评估,然后将人类参与者的表现进行对比,最后分析人类集体决策的效果。
关键创新:本研究的创新点在于首次系统比较了MLLMs与人类在情感识别中的表现,并强调了人类集体智慧在这一领域的优势。
关键设计:研究中使用了RMET和MRMET作为情感识别的标准测试,设置了不同的表现组(低、中、高水平),并采用了集体决策模拟方法来评估人类群体的表现。实验设计确保了结果的可靠性和有效性。
📊 实验亮点
实验结果显示,MLLMs在情感识别的准确性上优于人类,但当模拟人类集体决策时,群体的表现显著超过了MLLM的预测,表明众智的优势。此外,结合人类与MLLM的预测,准确性进一步提升,显示出协作的潜力。
🎯 应用场景
该研究的潜在应用领域包括人机交互、情感计算和社交机器人等。通过结合人类的情感识别能力与AI的计算能力,可以开发出更为智能和情感敏感的AI系统,提升用户体验和交互质量。未来,这种协作模式可能会在教育、心理健康和客户服务等领域产生深远影响。
📄 摘要(原文)
The ability to discern subtle emotional cues is fundamental to human social intelligence. As artificial intelligence (AI) becomes increasingly common, AI's ability to recognize and respond to human emotions is crucial for effective human-AI interactions. In particular, whether such systems can match or surpass human experts remains to be seen. However, the emotional intelligence of AI, particularly multimodal large language models (MLLMs), remains largely unexplored. This study evaluates the emotion recognition abilities of MLLMs using the Reading the Mind in the Eyes Test (RMET) and its multiracial counterpart (MRMET), and compares their performance against human participants. Results show that, on average, MLLMs outperform humans in accurately identifying emotions across both tests. This trend persists even when comparing performance across low, medium, and expert-level performing groups. Yet when we aggregate independent human decisions to simulate collective intelligence, human groups significantly surpass the performance of aggregated MLLM predictions, highlighting the wisdom of the crowd. Moreover, a collaborative approach (augmented intelligence) that combines human and MLLM predictions achieves greater accuracy than either humans or MLLMs alone. These results suggest that while MLLMs exhibit strong emotion recognition at the individual level, the collective intelligence of humans and the synergistic potential of human-AI collaboration offer the most promising path toward effective emotional AI. We discuss the implications of these findings for the development of emotionally intelligent AI systems and future research directions.