CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

📄 arXiv: 2603.05964v1 📥 PDF

作者: Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

提出CR-QAT,解决OVOD低比特量化中视觉-语言对齐和关系结构扭曲问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 量化感知训练 知识蒸馏 课程学习 视觉-语言对齐 低比特量化 关系学习

📋 核心要点

  1. 开放词汇目标检测模型体积庞大,难以在资源受限设备上部署,低比特量化是有效的压缩手段,但会损害视觉-语言对齐和区域关系。
  2. 论文提出课程关系量化感知训练(CR-QAT),结合课程QAT和文本中心关系知识蒸馏,缓解量化误差累积,传递多维关系知识。
  3. 实验结果表明,CR-QAT在LVIS和COCO零样本基准测试中,显著优于现有量化感知训练方法,AP分别提升高达38.9%和40.9%。

📝 摘要(中文)

开放词汇目标检测(OVOD)通过视觉-语言对齐实现新类别检测,但庞大的模型尺寸限制了其在资源受限设备上的部署。量化提供了一种实用的压缩方法,但我们发现,naive的极低比特(如4比特)量化会严重降低细粒度的视觉-语言对齐,并扭曲区域间的关系结构。为了解决这个问题,我们提出了课程关系量化感知训练(CR-QAT),这是一个结合了阶段性优化和关系知识蒸馏的集成框架。在CR-QAT中,课程QAT (CQAT)通过划分模型进行渐进式量化来缓解误差累积,通过误差隔离确保稳定的优化。同时,以文本为中心的关系KD (TRKD)应用于任务相关的模块。通过构建文本锚定的成对相似度矩阵,TRKD全面传递教师的多维关系知识。在LVIS和COCO零样本基准上的实验表明,CR-QAT在激进的低比特设置下始终优于现有的QAT基线,分别实现了高达38.9%和40.9%的相对AP提升。

🔬 方法详解

问题定义:开放词汇目标检测(OVOD)模型通常参数量巨大,难以部署在资源受限的设备上。直接采用低比特量化虽然可以有效压缩模型,但会严重破坏模型中细粒度的视觉-语言对齐,并扭曲不同区域之间的关系结构,导致检测性能显著下降。现有量化感知训练方法难以有效解决这些问题。

核心思路:论文的核心思路是通过课程学习和关系知识蒸馏,在量化感知训练过程中逐步优化模型,并保持模型中重要的视觉-语言对齐和区域关系。课程学习通过逐步量化模型的不同部分,避免误差累积;关系知识蒸馏则通过传递教师模型的关系知识,弥补量化带来的信息损失。

技术框架:CR-QAT框架包含两个主要模块:课程QAT (CQAT)和文本中心关系知识蒸馏 (TRKD)。CQAT将模型划分为多个阶段,逐步进行量化,先量化对量化误差不敏感的模块,再量化敏感模块,从而缓解误差累积。TRKD则针对任务相关的模块,构建文本锚定的成对相似度矩阵,将教师模型中蕴含的多维关系知识传递给学生模型。

关键创新:CR-QAT的关键创新在于将课程学习和关系知识蒸馏相结合,用于解决OVOD模型低比特量化中的性能下降问题。课程学习缓解了量化误差累积,关系知识蒸馏则弥补了量化带来的信息损失,从而在保证模型压缩率的同时,尽可能地保持了模型的检测性能。与现有QAT方法相比,CR-QAT更关注视觉-语言对齐和区域关系,并针对性地设计了相应的优化策略。

关键设计:CQAT的关键设计在于如何划分量化阶段,以及如何确定每个阶段的量化比特数。TRKD的关键设计在于如何构建文本锚定的成对相似度矩阵,以及如何选择合适的损失函数来传递关系知识。论文中使用了余弦相似度来构建相似度矩阵,并使用KL散度作为关系知识蒸馏的损失函数。具体的量化比特数和训练策略等超参数需要根据具体的模型和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CR-QAT在LVIS和COCO零样本目标检测基准上取得了显著的性能提升。在LVIS上,CR-QAT相比于现有QAT基线,AP提升高达38.9%。在COCO上,AP提升高达40.9%。这些结果表明,CR-QAT能够有效解决OVOD模型低比特量化中的性能下降问题,并在实际应用中具有很大的潜力。

🎯 应用场景

该研究成果可应用于资源受限设备上的开放词汇目标检测,例如移动机器人、智能摄像头、嵌入式系统等。通过降低模型大小和计算复杂度,可以使这些设备具备更强的环境感知能力,从而实现更智能化的应用,例如智能安防、自动驾驶、工业检测等。该方法也有潜力推广到其他视觉-语言任务中。

📄 摘要(原文)

Open-vocabulary object detection (OVOD) enables novel category detection via vision-language alignment, but massive model sizes hinder deployment on resource-constrained devices. While quantization offers practical compression, we reveal that naive extreme low-bit (e.g., 4-bit) quantization severely degrades fine-grained vision-language alignment and distorts inter-region relational structures. To address this, we propose curriculum relational quantization-aware training (CR-QAT), an integrated framework combining stage-by-stage optimization with relational knowledge distillation. Within CR-QAT, curriculum QAT (CQAT) mitigates error accumulation by partitioning the model for progressive quantization, ensuring stable optimization via error isolation. Concurrently, text-centric relational KD (TRKD) is applied to task-relevant modules. By constructing text-anchored pairwise similarity matrices, TRKD comprehensively transfers the teacher's multi-dimensional relational knowledge. Experiments on LVIS and COCO zero-shot benchmarks demonstrate that CR-QAT consistently outperforms existing QAT baselines under aggressive low-bit settings, achieving relative AP improvements of up to 38.9% and 40.9%, respectively.