Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

📄 arXiv: 2603.02629v1 📥 PDF

作者: Kaifang Long, Lianbo Ma, Jiaqi Liu, Liming Liu, Guoyang Xie

分类: cs.CV

发布日期: 2026-03-03


💡 一句话要点

提出IB-IUMAD,解决增量统一多模态异常检测中的灾难性遗忘问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态异常检测 增量学习 灾难性遗忘 信息瓶颈 Mamba解码器 去噪 特征解耦

📋 核心要点

  1. 现有增量统一多模态异常检测方法忽略了虚假和冗余特征对灾难性遗忘的潜在影响。
  2. IB-IUMAD框架通过Mamba解码器解耦对象特征,并利用信息瓶颈过滤冗余信息,从而保留判别性特征。
  3. 在MVTec 3D-AD和Eyecandies数据集上的实验表明,IB-IUMAD具有有效性和竞争力。

📝 摘要(中文)

本文旨在解决增量统一多模态异常检测中存在的灾难性遗忘问题,即模型在学习新类别时遗忘先前知识。研究表明,虚假和冗余特征会加剧这一问题,并且通过简单聚合单模态架构构建的多模态框架更容易发生遗忘。为此,本文提出了一种名为IB-IUMAD的去噪框架,它利用Mamba解码器和信息瓶颈融合模块的互补优势:前者用于解耦对象间的特征,防止虚假特征干扰;后者用于过滤融合特征中的冗余信息,显式地保留判别性信息。在MVTec 3D-AD和Eyecandies数据集上进行的一系列理论分析和实验验证了IB-IUMAD的有效性和竞争力。

🔬 方法详解

问题定义:增量统一多模态异常检测旨在构建一个能够检测所有类别异常并支持增量学习的模型,以适应新出现的对象/类别。然而,灾难性遗忘问题阻碍了这一目标的实现,即模型在学习新知识时会遗忘先前学习的知识。现有方法在解决灾难性遗忘问题时,往往忽略了虚假和冗余特征的潜在影响,这些特征会干扰模型的学习过程,加剧遗忘现象。此外,简单聚合单模态架构构建的多模态框架更容易受到虚假特征的影响,从而更容易发生遗忘。

核心思路:本文的核心思路是通过去噪的方式,显式地去除虚假和冗余特征,从而缓解灾难性遗忘问题。具体来说,利用Mamba解码器解耦对象间的特征,防止虚假特征的干扰;利用信息瓶颈融合模块过滤融合特征中的冗余信息,保留判别性信息。这种方法旨在使模型更加关注重要的特征,从而提高模型的泛化能力和鲁棒性。

技术框架:IB-IUMAD框架主要包含两个核心模块:Mamba解码器和信息瓶颈融合模块。首先,Mamba解码器用于解耦不同对象之间的特征,减少对象间的干扰。然后,将解耦后的特征输入到信息瓶颈融合模块中,该模块通过学习一个瓶颈表示,过滤掉冗余信息,保留判别性信息。最后,利用保留的判别性信息进行异常检测。

关键创新:本文的关键创新在于将Mamba解码器和信息瓶颈融合模块结合起来,用于解决增量统一多模态异常检测中的灾难性遗忘问题。Mamba解码器能够有效地解耦对象间的特征,而信息瓶颈融合模块能够有效地过滤冗余信息。这种结合能够使模型更加关注重要的特征,从而提高模型的泛化能力和鲁棒性。与现有方法相比,IB-IUMAD显式地考虑了虚假和冗余特征的影响,并采取了相应的措施来缓解这些影响。

关键设计:Mamba解码器采用选择性状态空间模型(Selective State Space Model, S6)来建模序列数据,能够有效地捕捉长距离依赖关系。信息瓶颈融合模块通过最小化互信息来学习瓶颈表示,从而过滤掉冗余信息。损失函数包括重构损失和互信息损失,其中重构损失用于保证模型能够重构输入数据,互信息损失用于约束瓶颈表示的信息量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MVTec 3D-AD和Eyecandies数据集上的实验结果表明,IB-IUMAD在增量统一多模态异常检测任务中取得了显著的性能提升。与现有方法相比,IB-IUMAD在多个指标上都取得了更好的结果,证明了其有效性和竞争力。具体性能数据在论文中有详细展示,表明IB-IUMAD能够有效地缓解灾难性遗忘问题,提高模型的泛化能力。

🎯 应用场景

该研究成果可应用于工业质检、医疗诊断、自动驾驶等领域。例如,在工业质检中,可以利用该方法检测产品表面的缺陷;在医疗诊断中,可以辅助医生诊断疾病;在自动驾驶中,可以检测道路上的异常情况。该研究具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

The quest for incremental unified multimodal anomaly detection seeks to empower a single model with the ability to systematically detect anomalies across all categories and support incremental learning to accommodate emerging objects/categories. Central to this pursuit is resolving the catastrophic forgetting dilemma, which involves acquiring new knowledge while preserving prior learned knowledge. Despite some efforts to address this dilemma, a key oversight persists: ignoring the potential impact of spurious and redundant features on catastrophic forgetting. In this paper, we delve into the negative effect of spurious and redundant features on this dilemma in incremental unified frameworks, and reveal that under similar conditions, the multimodal framework developed by naive aggregation of unimodal architectures is more prone to forgetting. To address this issue, we introduce a novel denoising framework called IB-IUMAD, which exploits the complementary benefits of the Mamba decoder and information bottleneck fusion module: the former dedicated to disentangle inter-object feature coupling, preventing spurious feature interference between objects; the latter serves to filter out redundant features from the fused features, thus explicitly preserving discriminative information. A series of theoretical analyses and experiments on MVTec 3D-AD and Eyecandies datasets demonstrates the effectiveness and competitive performance of IB-IUMAD.