Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data

📄 arXiv: 2603.02695v1 📥 PDF

作者: Sijie Mai, Shiqin Han, Haifeng Hu

分类: cs.LG

发布日期: 2026-03-03


💡 一句话要点

提出统一模态质量框架UMQ,解决低质量多模态数据中的缺失和噪声问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 缺失模态 噪声模态 情感计算 质量估计

📋 核心要点

  1. 现有方法通常孤立地处理多模态数据中的噪声和缺失问题,忽略了二者之间的关联性。
  2. UMQ框架将噪声和缺失模态统一建模为低质量模态问题,通过质量估计和增强来提升表示质量。
  3. 实验表明,UMQ在多种数据集和模态设置下,均显著优于现有技术,提升了模型鲁棒性。

📝 摘要(中文)

真实场景中的多模态数据通常质量较低,噪声模态和缺失模态是两种典型形式,严重阻碍模型性能和鲁棒性。现有工作通常分别处理噪声和缺失模态。本文联合解决缺失和噪声模态问题,以增强模型在低质量数据场景下的鲁棒性。我们将噪声和缺失模态视为统一的低质量模态问题,并提出统一模态质量(UMQ)框架,以增强多模态情感计算的低质量表示。首先,通过排序引导的训练策略,利用显式监督信号训练质量估计器,通过添加排序约束来比较不同表示的相对质量,避免不准确的绝对质量标签造成的训练噪声。然后,为每个模态构建质量增强器,利用其他模态提供的样本特定信息和定义的模态基线表示提供的模态特定信息来增强单模态表示的质量。最后,提出一种具有特定路由机制的质量感知混合专家模块,以更具体地解决多种模态质量问题。在完整、缺失和噪声模态的设置下,UMQ在多个数据集上始终优于最先进的基线。

🔬 方法详解

问题定义:现实世界的多模态数据常常存在缺失或噪声,这严重影响了模型的性能和鲁棒性。现有的方法通常将缺失模态和噪声模态作为独立的问题来处理,忽略了它们之间的内在联系,并且缺乏统一的解决方案。此外,直接使用绝对质量标签进行训练容易受到标签噪声的影响。

核心思路:本文的核心思想是将缺失模态和噪声模态视为统一的低质量模态问题。通过学习一个质量估计器来评估每个模态的质量,并利用其他模态的信息来增强低质量模态的表示。通过排序学习避免直接使用绝对质量标签,从而减少噪声的影响。

技术框架:UMQ框架包含三个主要模块:质量估计器、质量增强器和质量感知混合专家模块。首先,质量估计器用于评估每个模态的质量。然后,质量增强器利用其他模态的信息和模态自身的基线表示来增强低质量模态的表示。最后,质量感知混合专家模块根据模态质量自适应地融合不同模态的信息。

关键创新:UMQ框架的关键创新在于:1) 将缺失模态和噪声模态统一建模为低质量模态问题;2) 提出了一种基于排序学习的质量估计器,避免了直接使用绝对质量标签带来的噪声;3) 设计了一种质量感知混合专家模块,能够根据模态质量自适应地融合不同模态的信息。

关键设计:质量估计器使用排序损失函数,比较不同表示的相对质量,避免了直接回归绝对质量标签。质量增强器利用其他模态的信息和模态自身的基线表示,通过注意力机制来增强低质量模态的表示。质量感知混合专家模块使用门控机制,根据模态质量动态地选择不同的专家。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UMQ框架在多个数据集(例如CMU-MOSI、CMU-MOSEI)上进行了评估,并在完整、缺失和噪声模态的设置下,均显著优于现有的基线方法。例如,在CMU-MOSI数据集的缺失模态设置下,UMQ的性能提升超过5%。实验结果表明,UMQ框架能够有效地处理低质量多模态数据,提升模型的鲁棒性和性能。

🎯 应用场景

该研究成果可广泛应用于多模态情感识别、多模态对话系统、多模态医学诊断等领域。在这些领域中,数据质量往往难以保证,UMQ框架能够有效提升模型在低质量数据下的鲁棒性和性能,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Multimodal data encountered in real-world scenarios are typically of low quality, with noisy modalities and missing modalities being typical forms that severely hinder model performance and robustness. However, prior works often handle noisy and missing modalities separately. In contrast, we jointly address missing and noisy modalities to enhance model robustness in low-quality data scenarios. We regard both noisy and missing modalities as a unified low-quality modality problem, and propose a unified modality-quality (UMQ) framework to enhance low-quality representations for multimodal affective computing. Firstly, we train a quality estimator with explicit supervised signals via a rank-guided training strategy that compares the relative quality of different representations by adding a ranking constraint, avoiding training noise caused by inaccurate absolute quality labels. Then, a quality enhancer for each modality is constructed, which uses the sample-specific information provided by other modalities and the modality-specific information provided by the defined modality baseline representation to enhance the quality of unimodal representations. Finally, we propose a quality-aware mixture-of-experts module with particular routing mechanism to enable multiple modality-quality problems to be addressed more specifically. UMQ consistently outperforms state-of-the-art baselines on multiple datasets under the settings of complete, missing, and noisy modalities.