HDINO: A Concise and Efficient Open-Vocabulary Detector

📄 arXiv: 2603.02924v1 📥 PDF

作者: Hao Zhang, Yiqun Wang, Qinran Lin, Runze Fan, Yong Li

分类: cs.CV

发布日期: 2026-03-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出HDINO,一种简洁高效的开放词汇目标检测器,无需人工标注和密集跨模态特征提取。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 跨模态学习 Transformer DINO 语义对齐 难例挖掘 目标检测

📋 核心要点

  1. 现有开放词汇目标检测方法依赖人工标注的细粒度数据集和资源密集的跨模态特征提取,成本高昂。
  2. HDINO通过两阶段训练,利用噪声样本进行语义对齐,并设计难度加权损失挖掘困难样本,提升检测性能。
  3. HDINO-T在COCO上超越Grounding DINO-T和T-Rex2,无需人工标注和grounding数据,验证了方法的有效性。

📝 摘要(中文)

本文提出HDINO,一种简洁而高效的开放词汇目标检测器,它消除了对人工标注的细粒度训练数据集以及资源密集型的逐层跨模态特征提取的依赖。具体来说,我们提出了一种基于Transformer的DINO模型的两阶段训练策略。在第一阶段,将噪声样本视为额外的正样本,以构建视觉和文本模态之间的一对多语义对齐机制(O2M),从而促进语义对齐。还设计了一种基于初始检测难度的难度加权分类损失(DWCL),以挖掘困难样本并进一步提高模型性能。在第二阶段,将轻量级特征融合模块应用于对齐的表示,以增强对语言语义的敏感性。在Swin Transformer-T设置下,HDINO-T使用来自两个公开检测数据集的220万张训练图像在COCO上实现了49.2 mAP,无需任何人工数据管理和使用grounding数据,超过了在540万和650万张图像上训练的Grounding DINO-T和T-Rex2,分别提高了0.8 mAP和2.8 mAP。在COCO上进行微调后,HDINO-T和HDINO-L进一步实现了56.4 mAP和59.2 mAP,突出了我们方法的有效性和可扩展性。代码和模型可在https://github.com/HaoZ416/HDINO获得。

🔬 方法详解

问题定义:开放词汇目标检测旨在检测图像中未在训练集中出现过的物体类别。现有方法通常依赖于大量人工标注的细粒度数据,以及复杂的跨模态特征提取模块,导致训练成本高昂,且模型复杂度较高。这些方法难以在资源受限的场景下应用。

核心思路:HDINO的核心思路是通过一种更高效的训练策略,减少对人工标注数据的依赖,并简化跨模态特征融合过程。具体来说,利用噪声样本作为额外的正样本,构建视觉和文本模态之间的语义对齐,并设计难度加权损失函数,关注难例挖掘,从而提升模型的泛化能力。

技术框架:HDINO采用两阶段训练框架。第一阶段,利用One-to-Many Semantic Alignment Mechanism (O2M)进行跨模态语义对齐,并使用Difficulty Weighted Classification Loss (DWCL)进行难例挖掘。第二阶段,使用轻量级的特征融合模块,增强模型对语言语义的敏感性。整个框架基于Transformer的DINO模型构建。

关键创新:HDINO的关键创新在于其高效的训练策略,包括O2M语义对齐和DWCL难例挖掘。O2M机制通过将噪声样本视为正样本,扩大了正样本的数量,从而提高了语义对齐的效率。DWCL则通过关注难例,提升了模型的泛化能力。此外,HDINO避免了复杂的跨模态特征提取模块,降低了模型的复杂度。

关键设计:O2M机制的关键在于如何选择合适的噪声样本,以及如何平衡噪声样本和真实样本之间的权重。DWCL的关键在于如何准确评估样本的检测难度,并根据难度调整损失函数的权重。轻量级特征融合模块的设计需要考虑计算效率和特征表达能力之间的平衡。具体参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HDINO-T在COCO数据集上取得了显著的性能提升,在Swin Transformer-T设置下,使用220万张训练图像,无需人工标注和grounding数据,mAP达到49.2,超过了使用540万张图像训练的Grounding DINO-T (0.8 mAP) 和使用650万张图像训练的T-Rex2 (2.8 mAP)。经过在COCO上的微调,HDINO-T和HDINO-L分别达到了56.4 mAP和59.2 mAP。

🎯 应用场景

HDINO可应用于智能安防、自动驾驶、图像搜索等领域,尤其适用于需要检测未知物体的场景。该方法降低了对人工标注数据的依赖,使得在数据匮乏或类别不断变化的场景下进行目标检测成为可能。未来可进一步扩展到视频目标检测、三维目标检测等任务。

📄 摘要(原文)

Despite the growing interest in open-vocabulary object detection in recent years, most existing methods rely heavily on manually curated fine-grained training datasets as well as resource-intensive layer-wise cross-modal feature extraction. In this paper, we propose HDINO, a concise yet efficient open-vocabulary object detector that eliminates the dependence on these components. Specifically, we propose a two-stage training strategy built upon the transformer-based DINO model. In the first stage, noisy samples are treated as additional positive object instances to construct a One-to-Many Semantic Alignment Mechanism(O2M) between the visual and textual modalities, thereby facilitating semantic alignment. A Difficulty Weighted Classification Loss (DWCL) is also designed based on initial detection difficulty to mine hard examples and further improve model performance. In the second stage, a lightweight feature fusion module is applied to the aligned representations to enhance sensitivity to linguistic semantics. Under the Swin Transformer-T setting, HDINO-T achieves \textbf{49.2} mAP on COCO using 2.2M training images from two publicly available detection datasets, without any manual data curation and the use of grounding data, surpassing Grounding DINO-T and T-Rex2 by \textbf{0.8} mAP and \textbf{2.8} mAP, respectively, which are trained on 5.4M and 6.5M images. After fine-tuning on COCO, HDINO-T and HDINO-L further achieve \textbf{56.4} mAP and \textbf{59.2} mAP, highlighting the effectiveness and scalability of our approach. Code and models are available at https://github.com/HaoZ416/HDINO.