Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey

📄 arXiv: 2509.24322v1 📥 PDF

作者: Yuntao Shou, Tao Meng, Wei Ai, Keqin Li

分类: cs.CL

发布日期: 2025-09-29

备注: 35 pages, 10 figures, 8 tables

🔗 代码/项目: GITHUB


💡 一句话要点

综述多模态大语言模型在情感识别与推理中的应用与挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 情感识别 情感推理 跨模态融合 人工智能 系统性综述 模型架构 性能基准

📋 核心要点

  1. 现有方法在多模态情感识别与推理中缺乏系统性综述,导致研究者难以把握最新进展与挑战。
  2. 本文通过全面综述LLMs与MLLMs在情感识别与推理中的应用,提供了模型架构、数据集及性能基准的整合。
  3. 研究指出了关键挑战并提出未来研究方向,旨在为该领域的研究者提供实用的参考与见解。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在语言理解方面取得了重大进展,标志着向人工通用智能(AGI)迈出了重要一步。随着对更高层次语义和跨模态融合的需求增加,多模态大语言模型(MLLMs)应运而生,整合文本、视觉和音频等多种信息源,以增强复杂场景中的建模和推理能力。在科学人工智能领域,多模态情感识别和推理已成为快速发展的前沿领域。尽管LLMs和MLLMs在这一领域取得了显著进展,但仍缺乏系统性的综述来整合最新发展。为此,本文提供了LLMs和MLLMs在情感识别与推理方面的全面综述,涵盖模型架构、数据集和性能基准,并强调关键挑战和未来研究方向,旨在为研究人员提供权威参考和实用见解。根据我们所知,本文是首次全面调查MLLMs与多模态情感识别和推理交叉领域的尝试。

🔬 方法详解

问题定义:本文旨在解决多模态情感识别与推理领域缺乏系统性综述的问题,现有方法未能有效整合最新进展与挑战。

核心思路:通过全面回顾LLMs和MLLMs在情感识别与推理中的应用,整合模型架构、数据集和性能基准,提供研究者所需的参考资料。

技术框架:整体架构包括文献回顾、模型分类、数据集分析和性能评估四个主要模块,系统性地呈现多模态情感识别与推理的现状。

关键创新:本文首次全面调查了多模态大语言模型与情感识别和推理的交叉领域,填补了该领域的文献空白。

关键设计:在综述过程中,重点分析了不同模型的架构设计、训练策略及其在情感识别任务中的表现,提供了详细的性能基准对比。

📊 实验亮点

本文综述了多模态大语言模型在情感识别与推理中的应用,指出了当前模型在性能和应用场景中的不足,并提出了未来研究的方向。通过对比现有模型,强调了在复杂情感场景下的推理能力提升。

🎯 应用场景

该研究的潜在应用领域包括情感分析、社交媒体监测、智能客服等,能够帮助企业和研究机构更好地理解和响应用户情感。未来,随着多模态技术的进一步发展,该领域可能会对人机交互、情感计算等产生深远影响。

📄 摘要(原文)

In recent years, large language models (LLMs) have driven major advances in language understanding, marking a significant step toward artificial general intelligence (AGI). With increasing demands for higher-level semantics and cross-modal fusion, multimodal large language models (MLLMs) have emerged, integrating diverse information sources (e.g., text, vision, and audio) to enhance modeling and reasoning in complex scenarios. In AI for Science, multimodal emotion recognition and reasoning has become a rapidly growing frontier. While LLMs and MLLMs have achieved notable progress in this area, the field still lacks a systematic review that consolidates recent developments. To address this gap, this paper provides a comprehensive survey of LLMs and MLLMs for emotion recognition and reasoning, covering model architectures, datasets, and performance benchmarks. We further highlight key challenges and outline future research directions, aiming to offer researchers both an authoritative reference and practical insights for advancing this domain. To the best of our knowledge, this paper is the first attempt to comprehensively survey the intersection of MLLMs with multimodal emotion recognition and reasoning. The summary of existing methods mentioned is in our Github: \href{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}.