DyKen-Hyena: Dynamic Kernel Generation via Cross-Modal Attention for Multimodal Intent Recognition
作者: Yifei Wang, Wenbin Wang, Yong Luo
分类: cs.LG
发布日期: 2025-09-12
备注: 8 pages, 2 figures
💡 一句话要点
DyKen-Hyena:通过跨模态注意力动态生成卷积核,用于多模态意图识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态意图识别 跨模态注意力 动态卷积核 特征调制 MIntRec 域外检测 视听信息融合
📋 核心要点
- 现有MIR模型在融合多模态特征时,容易引入噪声或不相关信息,损害关键的语言特征。
- DyKen-Hyena将视听线索转化为动态卷积核,逐token地调制文本特征提取,实现细粒度的模态交互。
- 实验表明,DyKen-Hyena在MIntRec和MIntRec2.0上取得了SOTA结果,尤其在域外检测上提升显著。
📝 摘要(中文)
多模态意图识别(MIR)通过利用来自多种来源(例如,语言、视频和音频)的丰富信息已被证明是有效的。然而,模态间意图无关和冲突信息的可能性可能会阻碍性能的进一步提升。目前大多数模型尝试通过应用诸如多头注意力之类的机制来融合模态,将结果加回到原始表示。这个过程有可能会用嘈杂或不相关的非语言信号破坏主要的语言特征,因为它通常无法捕获细粒度的token级别的影响,即非语言线索应该调节而非仅仅增强文本含义。为了解决这个问题,我们引入了DyKen-Hyena,它将问题从特征融合重新定义为处理调制。我们的模型将视听线索转化为动态的、逐token的卷积核,直接调制文本特征提取。这种细粒度的方法在MIntRec和MIntRec2.0基准测试中取得了最先进的结果。值得注意的是,它在域外检测中产生了+10.46%的F1分数提升,验证了我们的方法创建了一种根本上更鲁棒的意图表示。
🔬 方法详解
问题定义:多模态意图识别旨在利用多种模态的信息(如文本、视频、音频)来准确识别用户意图。现有方法在融合不同模态特征时,通常采用多头注意力等机制,直接将非语言信号加回到原始文本特征中。这种方式容易引入噪声,破坏关键的语言特征,尤其是在非语言信号与意图无关或存在冲突时,会降低意图识别的准确性。
核心思路:DyKen-Hyena的核心思路是将模态融合问题转化为模态调制问题。它不直接将非语言特征与文本特征融合,而是利用视听线索动态生成卷积核,用于调制文本特征的提取过程。这样可以实现细粒度的模态交互,让非语言信息在token级别影响文本特征的表达,从而更准确地捕捉用户意图。
技术框架:DyKen-Hyena的整体架构包含以下几个主要模块:1) 文本特征提取模块:使用预训练语言模型(如BERT)提取文本特征。2) 视听特征提取模块:提取视频和音频特征。3) 动态卷积核生成模块:利用跨模态注意力机制,将视听特征转化为动态的、逐token的卷积核。4) 文本特征调制模块:使用生成的动态卷积核,对文本特征进行卷积操作,实现特征调制。5) 意图分类模块:将调制后的文本特征输入分类器,预测用户意图。
关键创新:DyKen-Hyena最重要的技术创新点在于动态卷积核的生成和应用。与传统的特征融合方法不同,它不是简单地将不同模态的特征拼接或相加,而是利用非语言信息动态地调整文本特征提取的过程。这种方法可以更有效地利用多模态信息,避免噪声的干扰,提高意图识别的准确性。
关键设计:DyKen-Hyena的关键设计包括:1) 跨模态注意力机制:用于计算视听特征对每个文本token的重要性,从而生成动态卷积核。2) 动态卷积核的尺寸和数量:根据任务需求进行调整,以平衡模型的复杂度和性能。3) 损失函数:采用交叉熵损失函数,优化意图分类器的参数。
📊 实验亮点
DyKen-Hyena在MIntRec和MIntRec2.0基准测试中取得了最先进的结果。尤其在域外检测任务中,F1分数提升了10.46%,表明该模型具有更强的鲁棒性和泛化能力。相较于传统的多头注意力融合方法,DyKen-Hyena能够更有效地利用多模态信息,避免噪声干扰,从而提高意图识别的准确性。
🎯 应用场景
DyKen-Hyena可应用于智能助手、智能客服、视频内容理解等领域。通过融合文本、视频和音频信息,更准确地理解用户意图,从而提供更个性化、更智能的服务。例如,在智能客服中,可以根据用户的语音和视频表情,更准确地判断用户的情绪和需求,从而提供更有效的帮助。在视频内容理解中,可以结合视频画面和语音内容,更全面地理解视频的主题和情感倾向。
📄 摘要(原文)
Though Multimodal Intent Recognition (MIR) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential for intent-irrelevant and conflicting information across modalities may hinder performance from being further improved. Most current models attempt to fuse modalities by applying mechanisms like multi-head attention to unimodal feature sequences and then adding the result back to the original representation. This process risks corrupting the primary linguistic features with noisy or irrelevant non-verbal signals, as it often fails to capture the fine-grained, token-level influence where non-verbal cues should modulate, not just augment, textual meaning. To address this, we introduce DyKen-Hyena, which reframes the problem from feature fusion to processing modulation. Our model translates audio-visual cues into dynamic, per-token convolutional kernels that directly modulate textual feature extraction. This fine-grained approach achieves state-of-the-art results on the MIntRec and MIntRec2.0 benchmarks. Notably, it yields a +10.46% F1-score improvement in out-of-scope detection, validating that our method creates a fundamentally more robust intent representation.