Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

作者: Jiahao Huang, Fengyan Lin, Xuechao Yang, Chen Feng, Kexin Zhu, Xu Yang, Zhide Chen

分类: cs.AI, cs.CV

发布日期: 2026-03-02

备注: 17 pages,8 figures, The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026

💡 一句话要点

提出Nano-EmoX，统一多模态情感智能，实现从感知到共情的建模。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 情感计算 人机交互 课程学习 迁移学习

📋 核心要点

现有情感多模态模型在低级感知和高级交互间存在鸿沟，导致能力割裂且泛化性差。
论文提出认知启发的三层情感任务层次结构，并设计Nano-EmoX模型和P2E训练框架。
Nano-EmoX在六个核心情感任务上取得了领先或极具竞争力的性能，同时保持了模型的小规模。

📝 摘要（中文）

情感多模态语言模型（MLM）的发展长期受限于低级感知和高级交互之间的差距，导致情感能力碎片化和泛化能力受限。为了弥合这一差距，我们提出了一个认知启发的三层层次结构，根据认知深度（感知、理解和交互）组织情感任务，并为推进情感建模提供统一的概念基础。在该层次结构的指导下，我们引入了小规模多任务MLM Nano-EmoX和基于课程学习的训练框架P2E（Perception-to-Empathy）。Nano-EmoX集成了全模态编码器套件，包括增强的面部编码器和融合编码器，以捕获关键的多模态情感线索并提高跨任务迁移能力。通过异构适配器将输出投影到统一的语言空间中，使轻量级语言模型能够处理各种情感任务。同时，P2E通过将快速感知与思维链驱动的共情对齐，逐步培养情感智能。据我们所知，Nano-EmoX是第一个统一所有三个层次结构的六个核心情感任务的紧凑型MLM（2.2B），在多个基准测试中实现了最先进或极具竞争力的性能，展示了卓越的效率和泛化能力。

🔬 方法详解

问题定义：现有情感多模态语言模型难以同时处理低级感知（如面部表情识别）和高级交互（如共情对话）任务，导致模型能力分散，无法有效迁移到新的情感任务上。现有方法缺乏统一的框架来整合不同层次的情感理解能力。

核心思路：论文的核心思路是构建一个认知启发的三层情感任务层次结构（感知、理解、交互），并设计一个能够有效学习和迁移不同层次情感知识的模型。通过课程学习的方式，逐步提升模型的情感智能，使其能够从感知到共情。

技术框架：Nano-EmoX的整体架构包含以下几个主要模块：1) 全模态编码器：包括文本编码器、音频编码器、视觉编码器（包含增强的面部编码器）等，用于提取不同模态的情感特征。2) 融合编码器：用于融合不同模态的特征，捕捉多模态情感线索。3) 异构适配器：将不同模态的特征投影到统一的语言空间中。4) 轻量级语言模型：用于处理各种情感任务。P2E训练框架则采用课程学习策略，从简单的感知任务开始，逐步过渡到复杂的共情任务。

关键创新：论文的关键创新在于：1) 提出了一个认知启发的三层情感任务层次结构，为情感建模提供了一个统一的概念基础。2) 设计了Nano-EmoX模型，能够有效学习和迁移不同层次的情感知识。3) 提出了P2E训练框架，通过课程学习的方式，逐步提升模型的情感智能。4) Nano-EmoX是一个紧凑型模型（2.2B），但能够在多个情感任务上取得领先或极具竞争力的性能。

关键设计：增强的面部编码器可能采用了更先进的卷积神经网络或Transformer结构，以提高面部表情识别的准确率。融合编码器可能采用了注意力机制或门控机制，以有效融合不同模态的特征。异构适配器可能采用了线性层或非线性层，以将不同模态的特征投影到统一的语言空间中。P2E训练框架中的课程学习策略可能采用了难度递增的任务排序方式，并根据模型的学习进度动态调整任务的权重。

🖼️ 关键图片

📊 实验亮点

Nano-EmoX在六个核心情感任务上取得了最先进或极具竞争力的性能，证明了其在多模态情感理解方面的有效性。作为一个仅有2.2B参数的紧凑型模型，Nano-EmoX在效率和泛化能力方面表现出色，优于许多更大规模的模型。P2E训练框架的引入进一步提升了模型的情感智能。

🎯 应用场景

该研究成果可应用于情感计算、人机交互、心理健康评估等领域。例如，可以开发更具同理心的聊天机器人，帮助人们更好地理解和表达情感；可以用于心理健康评估，通过分析用户的面部表情、语音和文本，判断其情绪状态，并提供相应的支持；还可以应用于教育领域，帮助学生更好地学习情感知识，提高情商。

📄 摘要（原文）

The development of affective multimodal language models (MLMs) has long been constrained by a gap between low-level perception and high-level interaction, leading to fragmented affective capabilities and limited generalization. To bridge this gap, we propose a cognitively inspired three-level hierarchy that organizes affective tasks according to their cognitive depth-perception, understanding, and interaction-and provides a unified conceptual foundation for advancing affective modeling. Guided by this hierarchy, we introduce Nano-EmoX, a small-scale multitask MLM, and P2E (Perception-to-Empathy), a curriculum-based training framework. Nano-EmoX integrates a suite of omni-modal encoders, including an enhanced facial encoder and a fusion encoder, to capture key multimodal affective cues and improve cross-task transferability. The outputs are projected into a unified language space via heterogeneous adapters, empowering a lightweight language model to tackle diverse affective tasks. Concurrently, P2E progressively cultivates emotional intelligence by aligning rapid perception with chain-of-thought-driven empathy. To the best of our knowledge, Nano-EmoX is the first compact MLM (2.2B) to unify six core affective tasks across all three hierarchy levels, achieving state-of-the-art or highly competitive performance across multiple benchmarks, demonstrating excellent efficiency and generalization.

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理