Pixel-level Quality Assessment for Oriented Object Detection
作者: Yunhui Zhu, Buliao Huang
分类: cs.CV
发布日期: 2025-11-11
💡 一句话要点
提出像素级质量评估PQA,解决有向目标检测中IoU预测的结构耦合问题。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 有向目标检测 质量评估 像素级 空间一致性 遥感图像 定位精度
📋 核心要点
- 现有有向目标检测器依赖框级IoU预测作为定位质量的代理,但存在结构耦合问题,导致定位质量被高估。
- 论文提出像素级质量评估(PQA)框架,通过像素级空间一致性积分来避免直接比较预测框和真实框,消除相似性偏差。
- 实验表明,PQA可以无缝集成到多种有向目标检测器中,并在HRSC2016和DOTA数据集上显著提升检测性能。
📝 摘要(中文)
现代有向目标检测器通常预测一系列边界框,并根据估计的定位质量选择排名靠前的框。实现高检测性能需要估计的质量与实际定位精度紧密对齐。为此,现有方法预测预测框和真实框之间的IoU作为定位质量的代理。然而,框级IoU预测存在结构耦合问题:由于预测框源于检测器对真实框的内部估计,因此基于它们相似性的预测IoU对于定位不良的框可能被高估。为了克服这个限制,我们提出了一种新的像素级质量评估(PQA)框架,该框架用像素级空间一致性的积分代替了框级IoU预测。PQA测量每个像素相对于预测框的位置与其相对于真实框的对应位置之间的一致性。通过在像素级别操作,PQA避免了直接比较预测框与估计的真实框,从而消除了框级IoU预测中固有的相似性偏差。此外,我们引入了一种新的积分度量,将像素级空间一致性聚合为统一的质量分数,从而更准确地近似实际定位质量。在HRSC2016和DOTA上的大量实验表明,PQA可以无缝集成到各种有向目标检测器中,持续提高性能(例如,在Rotated RetinaNet上+5.96% AP$_{50:95}$,在STD上+2.32%)。
🔬 方法详解
问题定义:现有有向目标检测器使用预测框和真实框的IoU作为定位质量的指标。然而,由于预测框本身就是由检测器预测得到的,因此预测框与真实框的IoU会受到预测框质量的影响,导致对定位质量的评估产生偏差,尤其是在预测框定位不准确时,IoU可能会被高估。这种结构耦合问题限制了检测器的性能上限。
核心思路:论文的核心思路是将质量评估从框级别降到像素级别。不再直接比较预测框和真实框的整体相似度(IoU),而是评估每个像素相对于预测框的位置和相对于真实框的位置的一致性。通过这种方式,避免了直接比较预测框和真实框,从而消除了结构耦合带来的偏差。
技术框架:PQA框架主要包含以下几个阶段:1) 对于每个预测框,确定其对应的图像区域。2) 对于该区域内的每个像素,计算其相对于预测框的位置和相对于真实框的位置。3) 使用某种度量方式(论文中提出了一种新的积分度量)来衡量这两个位置的一致性,得到一个像素级别的质量得分。4) 将所有像素的质量得分进行聚合,得到一个统一的质量分数,作为该预测框的最终质量评估。
关键创新:最重要的技术创新点在于将质量评估的粒度从框级别降低到像素级别。与现有方法直接比较预测框和真实框的IoU不同,PQA通过评估像素级别的空间一致性来间接衡量定位质量,从而避免了结构耦合问题。这种像素级别的评估方式能够更准确地反映定位的真实质量。
关键设计:论文提出了一个新的积分度量来聚合像素级别的空间一致性。具体的技术细节(如损失函数、网络结构等)可能因集成的检测器而异,但核心思想都是利用像素级别的空间一致性来评估定位质量。关键在于如何设计有效的像素级一致性度量和聚合方法,以获得更准确的质量评估。
📊 实验亮点
实验结果表明,PQA可以显著提升现有有向目标检测器的性能。例如,在HRSC2016数据集上,PQA将Rotated RetinaNet的AP$_{50:95}$提高了5.96%,在DOTA数据集上,将STD的AP提高了2.32%。这些结果证明了PQA在提高有向目标检测精度方面的有效性。
🎯 应用场景
该研究成果可广泛应用于需要高精度有向目标检测的场景,例如遥感图像分析、自动驾驶、智能交通、医学图像分析等。通过提高有向目标检测的精度,可以提升这些应用场景的性能和可靠性,例如更准确地识别遥感图像中的建筑物和车辆,从而支持城市规划和环境监测。
📄 摘要(原文)
Modern oriented object detectors typically predict a set of bounding boxes and select the top-ranked ones based on estimated localization quality. Achieving high detection performance requires that the estimated quality closely aligns with the actual localization accuracy. To this end, existing approaches predict the Intersection over Union (IoU) between the predicted and ground-truth (GT) boxes as a proxy for localization quality. However, box-level IoU prediction suffers from a structural coupling issue: since the predicted box is derived from the detector's internal estimation of the GT box, the predicted IoU--based on their similarity--can be overestimated for poorly localized boxes. To overcome this limitation, we propose a novel Pixel-level Quality Assessment (PQA) framework, which replaces box-level IoU prediction with the integration of pixel-level spatial consistency. PQA measures the alignment between each pixel's relative position to the predicted box and its corresponding position to the GT box. By operating at the pixel level, PQA avoids directly comparing the predicted box with the estimated GT box, thereby eliminating the inherent similarity bias in box-level IoU prediction. Furthermore, we introduce a new integration metric that aggregates pixel-level spatial consistency into a unified quality score, yielding a more accurate approximation of the actual localization quality. Extensive experiments on HRSC2016 and DOTA demonstrate that PQA can be seamlessly integrated into various oriented object detectors, consistently improving performance (e.g., +5.96% AP$_{50:95}$ on Rotated RetinaNet and +2.32% on STD).