Efficient Odd-One-Out Anomaly Detection

📄 arXiv: 2509.04326v1 📥 PDF

作者: Silvio Chito, Paolo Rabino, Tatiana Tommasi

分类: cs.CV

发布日期: 2025-09-04

备注: Accepted at ICIAP 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出一种高效的基于DINO的奇数项异常检测模型,在保持性能的同时显著降低参数量和训练时间。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奇数项异常检测 DINO 自监督学习 视觉推理 高效模型 多模态学习

📋 核心要点

  1. 现有的奇数项异常检测方法在空间和关系推理方面存在不足,难以兼顾性能与效率。
  2. 论文提出一种基于DINO的高效模型,旨在减少参数量和训练时间,同时保持或提升检测性能。
  3. 实验结果表明,该模型在参数量和训练时间上显著优于现有方法,并分析了多模态大语言模型在此任务上的局限性。

📝 摘要(中文)

本文针对多对象场景中的奇数项异常检测任务,该任务要求模型具备跨多个视角的空间推理以及理解上下文和泛化不同对象类别和布局的关系推理能力。我们认为解决这些挑战必须以效率为前提。为此,我们提出了一种基于DINO的模型,该模型在保持竞争力的同时,将参数数量减少了三分之一,并将训练时间缩短了三倍,优于当前最先进的模型。我们的实验评估还引入了一个多模态大型语言模型基线,提供了对其在结构化视觉推理任务中当前局限性的见解。

🔬 方法详解

问题定义:论文旨在解决奇数项异常检测问题,即在一个包含多个对象的场景中,识别出与其他对象不同的异常对象。现有方法通常计算复杂度高,参数量大,训练时间长,难以满足实际应用的需求。

核心思路:论文的核心思路是利用DINO(Self-Distillation with NO labels)框架,通过自监督学习提取图像特征,并设计高效的网络结构,从而在减少参数量和训练时间的同时,保持甚至提升异常检测的性能。DINO擅长学习视觉表征,能够有效捕捉对象之间的关系。

技术框架:该模型基于DINO框架,主要包含以下几个模块:1) 图像编码器:使用DINO预训练的视觉Transformer提取图像特征。2) 特征融合模块:将不同对象的特征进行融合,以捕捉对象之间的关系。3) 异常评分模块:根据融合后的特征,计算每个对象的异常分数。4) 损失函数:采用对比损失函数,鼓励模型区分正常对象和异常对象。

关键创新:论文的关键创新在于:1) 提出了一个高效的基于DINO的奇数项异常检测模型,显著减少了参数量和训练时间。2) 引入了多模态大型语言模型作为基线,并分析了其在结构化视觉推理任务中的局限性。

关键设计:在网络结构方面,论文对DINO模型进行了裁剪和优化,减少了Transformer层的数量和隐藏层的大小,从而降低了参数量。在损失函数方面,论文采用了对比损失函数,并对正负样本的采样策略进行了优化,以提高训练效率。具体参数设置和网络结构细节未在摘要中详细说明,需要参考原文。

📊 实验亮点

论文提出的DINO-based模型在奇数项异常检测任务上取得了显著的性能提升,在保持竞争力的同时,将参数数量减少了三分之一,并将训练时间缩短了三倍,优于当前最先进的模型。同时,论文还分析了多模态大语言模型在此任务上的局限性,为未来的研究方向提供了参考。

🎯 应用场景

该研究成果可应用于工业质检、视频监控、医疗影像分析等领域。例如,在工业质检中,可以快速检测出生产线上不合格的产品;在视频监控中,可以自动识别异常行为;在医疗影像分析中,可以辅助医生诊断疾病。该研究有助于提高异常检测的效率和准确性,具有重要的实际应用价值。

📄 摘要(原文)

The recently introduced odd-one-out anomaly detection task involves identifying the odd-looking instances within a multi-object scene. This problem presents several challenges for modern deep learning models, demanding spatial reasoning across multiple views and relational reasoning to understand context and generalize across varying object categories and layouts. We argue that these challenges must be addressed with efficiency in mind. To this end, we propose a DINO-based model that reduces the number of parameters by one third and shortens training time by a factor of three compared to the current state-of-the-art, while maintaining competitive performance. Our experimental evaluation also introduces a Multimodal Large Language Model baseline, providing insights into its current limitations in structured visual reasoning tasks. The project page can be found at https://silviochito.github.io/EfficientOddOneOut/