Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

作者: Tao Meng, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li

分类: cs.SD, cs.CL, eess.AS

发布日期: 2023-12-11

备注: 16 pages, 9 figures

💡 一句话要点

提出CBERL模型，解决对话多模态情感识别中的类别不平衡问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感识别 类别不平衡学习 生成对抗网络 变分自编码器 图神经网络 对话情感识别 跨模态融合

📋 核心要点

对话情感识别面临类别不平衡问题，现有方法忽略了其对识别性能的负面影响，尤其对少数类。
提出CBERL模型，通过多模态生成对抗网络、变分自编码器和图神经网络来增强类别边界表示学习。
在IEMOCAP和MELD数据集上，CBERL在情感识别上取得提升，尤其在少数类情感上，准确率和F1值提升10%-20%。

📝 摘要（中文）

多模态对话情感识别（MERC）旨在识别文本、音频、图像和视频等多模态数据中的情感，是实现机器智能的重要发展方向。然而，MERC中的许多数据自然呈现出情感类别的不平衡分布，研究人员往往忽略了不平衡数据对情感识别的负面影响。为了解决这个问题，本文从数据增强、损失敏感性和采样策略三个方面系统地分析了该问题，并提出了类别边界增强表示学习（CBERL）模型。具体而言，首先设计了一个多模态生成对抗网络来解决原始数据中情感类别的不平衡分布。其次，提出了一个深度联合变分自编码器来融合跨模态的互补语义信息，并获得判别性特征表示。最后，实现了一个具有掩码重建和分类优化的多任务图神经网络，以解决类别边界学习中的过拟合和欠拟合问题，并实现跨模态情感识别。在IEMOCAP和MELD基准数据集上进行了大量实验，结果表明CBERL在情感识别的有效性方面取得了一定的性能提升。特别是在少数类别的恐惧和厌恶情感标签上，该模型将准确率和F1值提高了10%到20%。

🔬 方法详解

问题定义：论文旨在解决多模态对话情感识别（MERC）中，由于情感类别分布不平衡而导致的情感识别性能下降问题。现有方法通常忽略或未有效解决这一问题，导致模型在少数类情感上的识别效果不佳。

核心思路：论文的核心思路是通过多模态数据增强、特征表示学习和类别边界优化，来缓解类别不平衡带来的影响。具体来说，利用生成对抗网络生成少数类样本，使用变分自编码器学习跨模态的互补信息，并利用图神经网络优化类别边界的学习，从而提高模型对各类情感的识别能力。

技术框架：CBERL模型主要包含三个模块：1) 多模态生成对抗网络（MM-GAN）：用于生成少数类情感的模态数据，平衡数据集分布。2) 深度联合变分自编码器（DJ-VAE）：用于融合不同模态的特征，学习判别性的特征表示。3) 多任务图神经网络（MT-GNN）：用于在图结构上进行情感分类，并通过掩码重建任务优化类别边界的学习。

关键创新：论文的关键创新在于将生成对抗网络、变分自编码器和图神经网络相结合，形成一个完整的框架，从而有效地解决了多模态对话情感识别中的类别不平衡问题。特别是，利用图神经网络进行类别边界优化，能够更好地学习各类情感的特征表示，提高模型的泛化能力。

关键设计：MM-GAN使用conditional GAN，以情感类别作为条件生成对应模态的数据。DJ-VAE使用联合概率模型，学习跨模态的共享隐变量表示。MT-GNN使用图卷积网络进行情感分类，并添加掩码重建任务，鼓励模型学习更鲁棒的特征表示。损失函数包括分类损失、重建损失和对抗损失，通过调整权重平衡各个损失项。

📊 实验亮点

实验结果表明，CBERL模型在IEMOCAP和MELD数据集上均取得了显著的性能提升。尤其是在少数类情感（如恐惧和厌恶）的识别上，CBERL模型的准确率和F1值提升了10%到20%。相较于其他基线模型，CBERL模型能够更有效地解决类别不平衡问题，提高情感识别的准确性和鲁棒性。

🎯 应用场景

该研究成果可应用于智能客服、情感聊天机器人、心理健康监测等领域。通过准确识别用户的情感状态，可以提供更个性化、更贴心的服务，提升用户体验。未来，该技术有望在人机交互、智能医疗等领域发挥更大的作用。

📄 摘要（原文）

The main task of Multimodal Emotion Recognition in Conversations (MERC) is to identify the emotions in modalities, e.g., text, audio, image and video, which is a significant development direction for realizing machine intelligence. However, many data in MERC naturally exhibit an imbalanced distribution of emotion categories, and researchers ignore the negative impact of imbalanced data on emotion recognition. To tackle this problem, we systematically analyze it from three aspects: data augmentation, loss sensitivity, and sampling strategy, and propose the Class Boundary Enhanced Representation Learning (CBERL) model. Concretely, we first design a multimodal generative adversarial network to address the imbalanced distribution of {emotion} categories in raw data. Secondly, a deep joint variational autoencoder is proposed to fuse complementary semantic information across modalities and obtain discriminative feature representations. Finally, we implement a multi-task graph neural network with mask reconstruction and classification optimization to solve the problem of overfitting and underfitting in class boundary learning, and achieve cross-modal emotion recognition. We have conducted extensive experiments on the IEMOCAP and MELD benchmark datasets, and the results show that CBERL has achieved a certain performance improvement in the effectiveness of emotion recognition. Especially on the minority class fear and disgust emotion labels, our model improves the accuracy and F1 value by 10% to 20%.

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册