C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection

📄 arXiv: 2509.23316v2 📥 PDF

作者: Siheng Wang, Zhengdao Li, Yanshu Li, Canran Xiao, Haibo Zhan, Zhengtao Yao, Xuzhi Zhang, Jiale Kang, Linshan Li, Weiming Liu, Zhikang Dong, Jifeng Shen, Junhao Dong, Qiang Sun, Piotr Koniusz

分类: cs.CV

发布日期: 2025-09-27 (更新: 2025-12-13)

备注: one of the authors doesn't agree any more

🔗 代码/项目: GITHUB


💡 一句话要点

提出C3-OWD框架,通过课程学习和跨模态对比学习实现开放世界目标检测的鲁棒性和泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 开放世界检测 跨模态学习 对比学习 课程学习 鲁棒性 泛化性 RGBT数据 视觉-语言对齐

📋 核心要点

  1. 现有开放世界目标检测方法在恶劣环境下鲁棒性不足,而可见光-红外检测方法泛化能力有限,难以兼顾鲁棒性和多样性。
  2. C3-OWD框架采用课程学习策略,首先利用RGBT数据提升模型鲁棒性,然后通过视觉-语言对齐增强模型对新类别的泛化能力。
  3. 实验结果表明,C3-OWD在FLIR、OV-COCO和OV-LVIS数据集上均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

目标检测在闭集环境中取得了显著进展,但其在真实世界的部署仍然受到两个挑战的限制:对未见类别的泛化能力差以及在恶劣条件下的鲁棒性不足。以往的研究分别探索了这些问题:可见光-红外检测提高了鲁棒性,但缺乏泛化能力;而开放世界检测利用视觉-语言对齐策略来提高类别多样性,但在极端环境下表现不佳。这种权衡使得鲁棒性和多样性难以同时实现。为了缓解这些问题,我们提出了C3-OWD,一个课程跨模态对比学习框架,它统一了这两种优势。第一阶段通过RGBT数据进行预训练来增强鲁棒性,而第二阶段通过视觉-语言对齐来提高泛化能力。为了防止两个阶段之间的灾难性遗忘,我们引入了一种指数移动平均(EMA)机制,该机制在理论上保证了预阶段性能的保持,具有有界的参数滞后和函数一致性。在FLIR、OV-COCO和OV-LVIS上的实验证明了我们方法的有效性:C3-OWD在FLIR上实现了80.1 AP$^{50}$,在OV-COCO上实现了48.6 AP$^{50}_{\text{Novel}}$,在OV-LVIS上实现了35.7 mAP$_r$,在鲁棒性和多样性评估中都建立了有竞争力的性能。

🔬 方法详解

问题定义:论文旨在解决开放世界目标检测中鲁棒性和泛化性难以兼顾的问题。现有方法要么侧重于提升模型在恶劣环境下的鲁棒性,但对未见类别的检测能力较弱;要么侧重于提升模型对新类别的泛化能力,但在恶劣环境下表现不佳。因此,如何在开放世界场景下同时提升目标检测模型的鲁棒性和泛化能力是一个重要的挑战。

核心思路:论文的核心思路是采用课程学习的方式,分阶段训练模型,使其逐步具备鲁棒性和泛化能力。第一阶段利用RGBT数据进行预训练,提升模型在恶劣环境下的鲁棒性;第二阶段利用视觉-语言对齐策略,提升模型对新类别的泛化能力。同时,为了防止灾难性遗忘,引入指数移动平均(EMA)机制,保证模型在学习新知识的同时,不会忘记之前学到的知识。

技术框架:C3-OWD框架主要包含两个阶段:第一阶段是鲁棒性增强阶段,利用RGBT数据进行预训练,提升模型在恶劣环境下的检测能力。第二阶段是泛化性增强阶段,利用视觉-语言对齐策略,将视觉信息与语言信息对齐,提升模型对新类别的识别能力。在两个阶段之间,采用EMA机制,防止灾难性遗忘。整体流程是先用RGBT数据训练模型,然后用视觉-语言数据微调模型,最终得到一个既具有鲁棒性又具有泛化能力的开放世界目标检测模型。

关键创新:论文的关键创新在于提出了一个课程跨模态对比学习框架,将鲁棒性增强和泛化性增强两个阶段结合起来,并采用EMA机制防止灾难性遗忘。与现有方法相比,C3-OWD能够同时提升模型在恶劣环境下的鲁棒性和对新类别的泛化能力,从而更好地适应开放世界场景。

关键设计:在第一阶段,使用RGBT数据进行预训练,损失函数可以选择常用的目标检测损失函数,如Faster R-CNN的损失函数。在第二阶段,使用视觉-语言对齐策略,损失函数可以选择对比学习损失函数,如InfoNCE损失函数。EMA机制的关键参数是衰减率,需要根据具体情况进行调整。网络结构可以选择常用的目标检测网络,如Faster R-CNN、YOLO等。

📊 实验亮点

C3-OWD在FLIR数据集上实现了80.1 AP$^{50}$,在OV-COCO数据集上实现了48.6 AP$^{50}_{\text{Novel}}$,在OV-LVIS数据集上实现了35.7 mAP$_r$。这些结果表明,C3-OWD在鲁棒性和多样性评估中都取得了有竞争力的性能,显著优于现有方法。

🎯 应用场景

C3-OWD框架可应用于自动驾驶、智能安防、机器人等领域。在自动驾驶中,该框架可以提高车辆在恶劣天气条件下的目标检测能力,从而提高驾驶安全性。在智能安防中,该框架可以识别监控视频中的异常行为,提高安防效率。在机器人领域,该框架可以帮助机器人更好地理解周围环境,从而完成更复杂的任务。

📄 摘要(原文)

Object detection has advanced significantly in the closed-set setting, but real-world deployment remains limited by two challenges: poor generalization to unseen categories and insufficient robustness under adverse conditions. Prior research has explored these issues separately: visible-infrared detection improves robustness but lacks generalization, while open-world detection leverages vision-language alignment strategy for category diversity but struggles under extreme environments. This trade-off leaves robustness and diversity difficult to achieve simultaneously. To mitigate these issues, we propose \textbf{C3-OWD}, a curriculum cross-modal contrastive learning framework that unifies both strengths. Stage~1 enhances robustness by pretraining with RGBT data, while Stage~2 improves generalization via vision-language alignment. To prevent catastrophic forgetting between two stages, we introduce an Exponential Moving Average (EMA) mechanism that theoretically guarantees preservation of pre-stage performance with bounded parameter lag and function consistency. Experiments on FLIR, OV-COCO, and OV-LVIS demonstrate the effectiveness of our approach: C3-OWD achieves $80.1$ AP$^{50}$ on FLIR, $48.6$ AP$^{50}_{\text{Novel}}$ on OV-COCO, and $35.7$ mAP$_r$ on OV-LVIS, establishing competitive performance across both robustness and diversity evaluations. Code available at: https://github.com/justin-herry/C3-OWD.git.