CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

📄 arXiv: 2510.26006v1 📥 PDF

作者: Rishika Bhagwatkar, Syrielle Montariol, Angelika Romanou, Beatriz Borges, Irina Rish, Antoine Bosselut

分类: cs.CV, cs.CL

发布日期: 2025-10-29

期刊: 2025 Conference on Empirical Methods in Natural Language Processing


💡 一句话要点

CAVE:提出用于检测和解释视觉环境中常识异常的基准数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉异常检测 常识推理 视觉-语言模型 基准数据集 认知科学

📋 核心要点

  1. 现有异常检测方法主要集中于工业缺陷或合成异常,缺乏对真实世界复杂、不可预测异常的有效处理。
  2. CAVE数据集通过提供真实场景的视觉异常,并结合认知科学的标注方法,为VLM的异常理解提供了新的评估标准。
  3. 实验结果表明,即使采用先进的提示策略,现有的VLM在CAVE数据集上表现不佳,突显了常识推理在视觉异常理解中的重要性。

📝 摘要(中文)

本文提出了CAVE,这是一个真实世界视觉异常的基准数据集,旨在解决计算机视觉领域长期存在的、在真实场景中识别、推理和解释异常的挑战。CAVE支持三个开放式任务:异常描述、解释和理由,并提供细粒度的标注,包括视觉定位以及基于视觉表现、复杂性、严重性和常见性的异常分类。这些标注借鉴了认知科学关于人类如何识别和解决异常的研究,为评估视觉-语言模型(VLM)在检测和理解异常方面的能力提供了一个全面的框架。实验表明,即使采用先进的提示策略,最先进的VLM在视觉异常感知和常识推理方面仍然存在困难。CAVE作为一个现实且认知基础扎实的基准,为推进VLM中异常检测和常识推理的研究提供了宝贵的资源。

🔬 方法详解

问题定义:论文旨在解决视觉环境中常识异常的检测和解释问题。现有方法主要集中于工业缺陷或合成异常,无法捕捉真实世界异常的复杂性和多样性。此外,现有方法缺乏对异常进行解释和推理的能力,难以满足实际应用需求。

核心思路:论文的核心思路是构建一个包含真实世界视觉异常的基准数据集,并提供细粒度的标注,包括视觉定位、异常分类以及对异常的描述、解释和理由。通过这个数据集,可以更有效地评估VLM在视觉异常感知和常识推理方面的能力,并促进相关算法的改进。

技术框架:CAVE数据集的构建流程主要包括以下几个阶段:1) 数据收集:从真实世界场景中收集包含异常的图像;2) 异常标注:对图像中的异常进行视觉定位,并根据其视觉表现、复杂性、严重性和常见性进行分类;3) 文本标注:为每个异常提供描述、解释和理由,这些文本标注借鉴了认知科学的研究成果,旨在模拟人类的异常识别和推理过程。

关键创新:CAVE数据集的关键创新在于其真实性和认知基础。与现有数据集相比,CAVE包含更多真实世界场景的异常,更贴近实际应用。此外,CAVE的标注方法借鉴了认知科学的研究成果,更符合人类的认知方式,有助于提高VLM的异常理解能力。

关键设计:CAVE数据集的标注设计包括以下几个关键方面:1) 视觉定位:使用边界框标注异常在图像中的位置;2) 异常分类:根据异常的视觉表现、复杂性、严重性和常见性进行分类;3) 文本标注:提供对异常的描述、解释和理由,这些文本标注旨在模拟人类的异常识别和推理过程。数据集还考虑了异常的上下文信息,以便VLM能够更好地理解异常的原因和影响。

📊 实验亮点

实验结果表明,即使采用先进的提示策略,现有的VLM在CAVE数据集上的表现仍然显著低于人类水平,这表明VLM在视觉异常感知和常识推理方面仍然存在很大的提升空间。例如,在异常解释任务中,VLM的准确率远低于人类水平,突显了常识推理在视觉异常理解中的重要性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、医疗诊断等领域。通过提升VLM对视觉环境中常识异常的检测和解释能力,可以提高系统的安全性和可靠性,例如在自动驾驶中识别道路上的异常物体,或在医疗影像中检测病灶。未来,该研究有望推动VLM在更广泛的实际场景中的应用。

📄 摘要(原文)

Humans can naturally identify, reason about, and explain anomalies in their environment. In computer vision, this long-standing challenge remains limited to industrial defects or unrealistic, synthetically generated anomalies, failing to capture the richness and unpredictability of real-world anomalies. In this work, we introduce CAVE, the first benchmark of real-world visual anomalies. CAVE supports three open-ended tasks: anomaly description, explanation, and justification; with fine-grained annotations for visual grounding and categorizing anomalies based on their visual manifestations, their complexity, severity, and commonness. These annotations draw inspiration from cognitive science research on how humans identify and resolve anomalies, providing a comprehensive framework for evaluating Vision-Language Models (VLMs) in detecting and understanding anomalies. We show that state-of-the-art VLMs struggle with visual anomaly perception and commonsense reasoning, even with advanced prompting strategies. By offering a realistic and cognitively grounded benchmark, CAVE serves as a valuable resource for advancing research in anomaly detection and commonsense reasoning in VLMs.