Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy
作者: Jiahao Huang, Fengyan Lin, Xuechao Yang, Chen Feng, Kexin Zhu, Xu Yang, Zhide Chen
分类: cs.AI, cs.CV
发布日期: 2026-03-02
备注: 17 pages,8 figures, The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
💡 一句话要点
提出Nano-EmoX,统一多模态情感智能,实现从感知到共情的建模。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态情感分析 情感计算 人机交互 课程学习 迁移学习
📋 核心要点
- 现有情感多模态模型在低级感知和高级交互间存在鸿沟,导致能力割裂且泛化性差。
- 论文提出认知启发的三层情感任务层次结构,并设计Nano-EmoX模型和P2E训练框架。
- Nano-EmoX在六个核心情感任务上取得了领先或极具竞争力的性能,同时保持了模型的小规模。
📝 摘要(中文)
情感多模态语言模型(MLM)的发展长期受限于低级感知和高级交互之间的差距,导致情感能力碎片化和泛化能力受限。为了弥合这一差距,我们提出了一个认知启发的三层层次结构,根据认知深度(感知、理解和交互)组织情感任务,并为推进情感建模提供统一的概念基础。在该层次结构的指导下,我们引入了小规模多任务MLM Nano-EmoX和基于课程学习的训练框架P2E(Perception-to-Empathy)。Nano-EmoX集成了全模态编码器套件,包括增强的面部编码器和融合编码器,以捕获关键的多模态情感线索并提高跨任务迁移能力。通过异构适配器将输出投影到统一的语言空间中,使轻量级语言模型能够处理各种情感任务。同时,P2E通过将快速感知与思维链驱动的共情对齐,逐步培养情感智能。据我们所知,Nano-EmoX是第一个统一所有三个层次结构的六个核心情感任务的紧凑型MLM(2.2B),在多个基准测试中实现了最先进或极具竞争力的性能,展示了卓越的效率和泛化能力。
🔬 方法详解
问题定义:现有情感多模态语言模型难以同时处理低级感知(如面部表情识别)和高级交互(如共情对话)任务,导致模型能力分散,无法有效迁移到新的情感任务上。现有方法缺乏统一的框架来整合不同层次的情感理解能力。
核心思路:论文的核心思路是构建一个认知启发的三层情感任务层次结构(感知、理解、交互),并设计一个能够有效学习和迁移不同层次情感知识的模型。通过课程学习的方式,逐步提升模型的情感智能,使其能够从感知到共情。
技术框架:Nano-EmoX的整体架构包含以下几个主要模块:1) 全模态编码器:包括文本编码器、音频编码器、视觉编码器(包含增强的面部编码器)等,用于提取不同模态的情感特征。2) 融合编码器:用于融合不同模态的特征,捕捉多模态情感线索。3) 异构适配器:将不同模态的特征投影到统一的语言空间中。4) 轻量级语言模型:用于处理各种情感任务。P2E训练框架则采用课程学习策略,从简单的感知任务开始,逐步过渡到复杂的共情任务。
关键创新:论文的关键创新在于:1) 提出了一个认知启发的三层情感任务层次结构,为情感建模提供了一个统一的概念基础。2) 设计了Nano-EmoX模型,能够有效学习和迁移不同层次的情感知识。3) 提出了P2E训练框架,通过课程学习的方式,逐步提升模型的情感智能。4) Nano-EmoX是一个紧凑型模型(2.2B),但能够在多个情感任务上取得领先或极具竞争力的性能。
关键设计:增强的面部编码器可能采用了更先进的卷积神经网络或Transformer结构,以提高面部表情识别的准确率。融合编码器可能采用了注意力机制或门控机制,以有效融合不同模态的特征。异构适配器可能采用了线性层或非线性层,以将不同模态的特征投影到统一的语言空间中。P2E训练框架中的课程学习策略可能采用了难度递增的任务排序方式,并根据模型的学习进度动态调整任务的权重。
🖼️ 关键图片
📊 实验亮点
Nano-EmoX在六个核心情感任务上取得了最先进或极具竞争力的性能,证明了其在多模态情感理解方面的有效性。作为一个仅有2.2B参数的紧凑型模型,Nano-EmoX在效率和泛化能力方面表现出色,优于许多更大规模的模型。P2E训练框架的引入进一步提升了模型的情感智能。
🎯 应用场景
该研究成果可应用于情感计算、人机交互、心理健康评估等领域。例如,可以开发更具同理心的聊天机器人,帮助人们更好地理解和表达情感;可以用于心理健康评估,通过分析用户的面部表情、语音和文本,判断其情绪状态,并提供相应的支持;还可以应用于教育领域,帮助学生更好地学习情感知识,提高情商。
📄 摘要(原文)
The development of affective multimodal language models (MLMs) has long been constrained by a gap between low-level perception and high-level interaction, leading to fragmented affective capabilities and limited generalization. To bridge this gap, we propose a cognitively inspired three-level hierarchy that organizes affective tasks according to their cognitive depth-perception, understanding, and interaction-and provides a unified conceptual foundation for advancing affective modeling. Guided by this hierarchy, we introduce Nano-EmoX, a small-scale multitask MLM, and P2E (Perception-to-Empathy), a curriculum-based training framework. Nano-EmoX integrates a suite of omni-modal encoders, including an enhanced facial encoder and a fusion encoder, to capture key multimodal affective cues and improve cross-task transferability. The outputs are projected into a unified language space via heterogeneous adapters, empowering a lightweight language model to tackle diverse affective tasks. Concurrently, P2E progressively cultivates emotional intelligence by aligning rapid perception with chain-of-thought-driven empathy. To the best of our knowledge, Nano-EmoX is the first compact MLM (2.2B) to unify six core affective tasks across all three hierarchy levels, achieving state-of-the-art or highly competitive performance across multiple benchmarks, demonstrating excellent efficiency and generalization.