Simple Image-level Classification Improves Open-vocabulary Object Detection

作者: Ruohuan Fang, Guansong Pang, Xiao Bai

分类: cs.CV

发布日期: 2023-12-16 (更新: 2023-12-19)

备注: Accepted at AAAI 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出SIC-CADS，利用图像级分类提升开放词汇目标检测中小目标和遮挡目标的检测性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 视觉-语言模型 上下文感知 多模态学习 图像级分类 目标检测 小目标检测

📋 核心要点

现有开放词汇目标检测方法未能充分利用视觉-语言模型强大的全局场景理解能力，导致难以检测小目标、模糊目标和遮挡目标。
SIC-CADS通过多模态多标签识别模块，学习对象共现的上下文信息，利用图像级分类的全局知识来提升目标检测性能。
实验表明，SIC-CADS与多种OVOD模型结合使用时，在OV-LVIS和OV-COCO上均取得了显著提升，并提高了跨数据集泛化能力。

📝 摘要（中文）

开放词汇目标检测(OVOD)旨在检测训练集中未包含的新类别目标。现有OVOD方法主要通过区域级知识蒸馏、区域提示学习或区域-文本预训练等方式，将图像级预训练的视觉-语言模型(VLM)，如CLIP，适配到区域级目标检测任务，以扩展检测词汇。这些方法在识别区域视觉概念方面表现出色，但未能充分利用VLM从大规模图像级文本描述中学习到的强大全局场景理解能力。这限制了它们检测来自新类别/基础类别的小、模糊或遮挡等难检测目标的能力，而这些目标的检测严重依赖于上下文信息。为了解决这个问题，我们提出了一种名为SIC-CADS的新方法，即用于上下文感知检测评分的简单图像级分类，从全局角度利用CLIP的卓越全局知识来补充当前的OVOD模型。SIC-CADS的核心是一个多模态多标签识别(MLR)模块，它学习来自CLIP的基于对象共现的上下文信息，以识别场景中所有可能的对象类别。然后，这些图像级MLR分数可用于细化当前OVOD模型在检测这些难检测目标时的实例级检测分数。在OV-LVIS和OV-COCO两个流行的基准测试上的大量实验结果验证了这一点，结果表明，当与不同类型的OVOD模型结合使用时，SIC-CADS实现了显著且一致的改进。此外，SIC-CADS还提高了Objects365和OpenImages上的跨数据集泛化能力。

🔬 方法详解

问题定义：开放词汇目标检测旨在检测训练集中未出现过的物体类别。现有方法侧重于将预训练的视觉-语言模型（如CLIP）适配到区域级别的目标检测任务，但忽略了CLIP模型强大的全局场景理解能力。这导致现有方法在检测小目标、模糊目标或被遮挡的目标时表现不佳，因为这些目标的检测往往依赖于上下文信息。

核心思路：论文的核心思路是利用图像级别的分类信息来补充现有的区域级别的目标检测方法。通过学习图像中物体的共现关系，可以获得更丰富的上下文信息，从而帮助检测那些难以识别的目标。这种方法从全局的角度出发，弥补了现有方法只关注局部区域信息的不足。

技术框架：SIC-CADS (Simple Image-level Classification for Context-Aware Detection Scoring) 的整体框架包含两个主要部分：现有的OVOD模型和多模态多标签识别(MLR)模块。首先，使用现有的OVOD模型生成候选框和对应的检测分数。然后，MLR模块利用CLIP模型提取图像级别的特征，并预测图像中存在的物体类别。最后，将MLR模块的预测结果与OVOD模型的检测分数进行融合，从而提升最终的检测性能。

关键创新：该论文的关键创新在于提出了一个简单有效的图像级别分类模块（MLR）来增强现有的开放词汇目标检测模型。与直接在区域级别进行知识蒸馏或提示学习的方法不同，SIC-CADS利用图像级别的全局上下文信息来提升检测性能，尤其是在检测小目标和遮挡目标时。这种全局视角是现有方法所缺乏的。

关键设计：MLR模块的关键设计包括：1) 使用CLIP模型提取图像特征；2) 使用多标签分类器预测图像中存在的物体类别；3) 设计一种融合策略，将MLR模块的预测结果与OVOD模型的检测分数进行融合。具体的融合策略可以是加权平均或者更复杂的学习方法。损失函数采用标准的交叉熵损失函数进行多标签分类训练。

📊 实验亮点

实验结果表明，SIC-CADS与多种OVOD模型结合使用时，在OV-LVIS和OV-COCO数据集上均取得了显著提升。例如，在OV-LVIS数据集上，与基线模型相比，SIC-CADS可以将AP提升多个百分点。此外，SIC-CADS还提高了在Objects365和OpenImages数据集上的跨数据集泛化能力，证明了其鲁棒性和泛化性能。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、图像搜索等领域。通过提升对小目标、模糊目标和遮挡目标的检测能力，可以提高这些应用场景的可靠性和准确性。例如，在自动驾驶中，可以更准确地检测到远处的行人或被遮挡的车辆，从而提高驾驶安全性。在智能监控中，可以更有效地识别监控画面中的异常行为。

📄 摘要（原文）

Open-Vocabulary Object Detection (OVOD) aims to detect novel objects beyond a given set of base categories on which the detection model is trained. Recent OVOD methods focus on adapting the image-level pre-trained vision-language models (VLMs), such as CLIP, to a region-level object detection task via, eg., region-level knowledge distillation, regional prompt learning, or region-text pre-training, to expand the detection vocabulary. These methods have demonstrated remarkable performance in recognizing regional visual concepts, but they are weak in exploiting the VLMs' powerful global scene understanding ability learned from the billion-scale image-level text descriptions. This limits their capability in detecting hard objects of small, blurred, or occluded appearance from novel/base categories, whose detection heavily relies on contextual information. To address this, we propose a novel approach, namely Simple Image-level Classification for Context-Aware Detection Scoring (SIC-CADS), to leverage the superior global knowledge yielded from CLIP for complementing the current OVOD models from a global perspective. The core of SIC-CADS is a multi-modal multi-label recognition (MLR) module that learns the object co-occurrence-based contextual information from CLIP to recognize all possible object categories in the scene. These image-level MLR scores can then be utilized to refine the instance-level detection scores of the current OVOD models in detecting those hard objects. This is verified by extensive empirical results on two popular benchmarks, OV-LVIS and OV-COCO, which show that SIC-CADS achieves significant and consistent improvement when combined with different types of OVOD models. Further, SIC-CADS also improves the cross-dataset generalization ability on Objects365 and OpenImages. The code is available at https://github.com/mala-lab/SIC-CADS.

Simple Image-level Classification Improves Open-vocabulary Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册