SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations
作者: Yiqiang Cai, Chengyan Wu, Bolei Ma, Bo Chen, Yun Xue, Julia Hirschberg, Ziwei Gong
分类: cs.CL
发布日期: 2026-04-02
备注: ICASSP 2026
💡 一句话要点
提出SURE框架,通过协同不确定性感知推理提升对话多模态情感识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感识别 对话系统 不确定性建模 迭代推理 Transformer 混合专家模型 上下文建模
📋 核心要点
- 现有MERC方法侧重融合,忽略了噪声特征中的不确定性和细粒度推理。
- SURE框架通过不确定性感知和迭代推理,提升模型在噪声环境下的鲁棒性和上下文建模能力。
- 实验表明,SURE在基准数据集上超越了现有SOTA方法,验证了其有效性。
📝 摘要(中文)
本文提出SURE(协同不确定性感知推理)框架,用于解决对话中的多模态情感识别(MERC)问题。该框架旨在提高模型在噪声环境下的鲁棒性,并增强上下文推理能力。SURE包含三个关键模块:不确定性感知的混合专家模块,用于处理模态特定的噪声;迭代推理模块,用于在上下文中进行多轮推理;以及Transformer门控模块,用于捕获模态内和模态间的交互。在基准MERC数据集上的实验结果表明,SURE始终优于现有最先进的方法,证明了其在鲁棒多模态推理方面的有效性。这些结果强调了不确定性建模和迭代推理在推进对话情感识别方面的重要性。
🔬 方法详解
问题定义:对话多模态情感识别(MERC)旨在理解对话中说话者的情感状态,需要整合来自不同模态(如语音、文本、视觉)的信息。然而,实际对话数据通常包含噪声,例如语音中的背景噪音、文本中的拼写错误等。现有方法在处理这些噪声时不够鲁棒,并且缺乏对上下文信息的细粒度推理能力,导致情感识别准确率下降。
核心思路:SURE的核心思路是协同利用不确定性感知和迭代推理来提升MERC的性能。通过显式地建模每个模态的不确定性,可以降低噪声的影响,提高模型的鲁棒性。同时,通过迭代地推理上下文信息,可以更好地理解对话的语境,从而更准确地识别情感。
技术框架:SURE框架包含三个主要模块:1) 不确定性感知的混合专家模块(Uncertainty-Aware Mixture-of-Experts):该模块为每个模态学习一个专家网络,并使用不确定性估计来动态地调整每个专家的权重,从而降低噪声的影响。2) 迭代推理模块(Iterative Reasoning Module):该模块通过多轮迭代的方式来推理上下文信息,每一轮迭代都会更新对话状态,从而更好地理解对话的语境。3) Transformer门控模块(Transformer Gate Module):该模块使用Transformer结构来捕获模态内和模态间的交互,从而更好地融合不同模态的信息。
关键创新:SURE的关键创新在于协同利用不确定性感知和迭代推理来提升MERC的性能。与现有方法相比,SURE能够更有效地处理噪声,并更好地理解上下文信息。此外,SURE还引入了Transformer门控模块来增强模态融合能力。
关键设计:在不确定性感知的混合专家模块中,使用高斯分布来建模每个模态的不确定性,并通过最大化对数似然函数来学习高斯分布的参数。在迭代推理模块中,使用GRU来更新对话状态,并使用注意力机制来选择重要的上下文信息。在Transformer门控模块中,使用多头注意力机制来捕获模态内和模态间的交互。
🖼️ 关键图片
📊 实验亮点
SURE在CMU-MOSEI和IEMOCAP两个基准MERC数据集上进行了评估,实验结果表明SURE始终优于现有最先进的方法。例如,在CMU-MOSEI数据集上,SURE在7分类准确率上取得了显著提升,验证了其在鲁棒多模态推理方面的有效性。消融实验也证明了各个模块的有效性。
🎯 应用场景
SURE框架可应用于智能客服、情感聊天机器人、心理健康咨询等领域。通过准确识别对话中的情感,可以提升人机交互的自然性和有效性,改善用户体验。未来,该研究可进一步扩展到更复杂的对话场景,例如多人对话、非结构化对话等,具有广阔的应用前景。
📄 摘要(原文)
Multimodal emotion recognition in conversations (MERC) requires integrating multimodal signals while being robust to noise and modeling contextual reasoning. Existing approaches often emphasize fusion but overlook uncertainty in noisy features and fine-grained reasoning. We propose SURE (Synergistic Uncertainty-aware REasoning) for MERC, a framework that improves robustness and contextual modeling. SURE consists of three components: an Uncertainty-Aware Mixture-of-Experts module to handle modality-specific noise, an Iterative Reasoning module for multi-turn reasoning over context, and a Transformer Gate module to capture intra- and inter-modal interactions. Experiments on benchmark MERC datasets show that SURE consistently outperforms state-of-the-art methods, demonstrating its effectiveness in robust multimodal reasoning. These results highlight the importance of uncertainty modeling and iterative reasoning in advancing emotion recognition in conversational settings.