Generalized-Scale Object Counting with Gradual Query Aggregation

📄 arXiv: 2511.08048v1 📥 PDF

作者: Jer Pelhan, Alan Lukezic, Matej Kristan

分类: cs.CV

发布日期: 2025-11-11

备注: Accepted to AAAI2026, code: https://github.com/jerpelhan/GECO2/


💡 一句话要点

GECO2:通过渐进式查询聚合实现广义尺度目标计数

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 少样本学习 目标计数 多尺度目标检测 渐进式查询聚合 密集预测

📋 核心要点

  1. 现有少样本目标计数方法在处理多尺度目标和高密度小目标时存在困难,主要原因是依赖于分辨率融合和图像上采样等临时方案。
  2. GECO2通过渐进式聚合跨尺度的样本特征信息,生成高分辨率密集查询,从而实现对不同尺度目标的有效检测。
  3. 实验结果表明,GECO2在计数和检测精度上均优于现有技术,且运行速度更快,内存占用更小,性能提升显著。

📝 摘要(中文)

基于少样本检测的计数器通过少量测试样本来估计图像中目标的数量。一种常见的方法是融合不同分辨率的主干特征来定位不同大小的目标。此外,为了在密集区域中检测小目标,通常对输入图像进行上采样和分块,以应对增加的计算和内存需求。由于这些临时解决方案,现有的计数器在处理包含不同大小目标和密集小目标区域的图像时表现不佳。我们提出了GECO2,一种端到端的少样本计数和检测方法,它显式地解决了目标尺度问题。一种新的密集查询表示逐步聚合跨尺度的特定于样本的特征信息,从而产生高分辨率的密集查询,从而能够检测大目标和小目标。GECO2在计数和检测精度上都超过了最先进的少样本计数器10%,同时运行速度快3倍,GPU内存占用更小。

🔬 方法详解

问题定义:现有基于少样本检测的目标计数方法,在处理包含多种尺寸目标,特别是小目标密集分布的场景时,性能会显著下降。这些方法通常依赖于简单的特征融合和图像上采样等策略,无法有效应对目标尺度的多样性,导致计数精度降低。

核心思路:GECO2的核心思路是利用渐进式的查询聚合,构建一种能够有效处理多尺度目标的密集查询表示。通过逐步融合不同尺度的特征信息,模型能够更好地理解目标在不同尺度下的特征表达,从而提高检测和计数的准确性。

技术框架:GECO2采用端到端的训练方式,主要包含以下几个模块:1) 特征提取网络(Backbone):用于提取输入图像的多尺度特征;2) 样本特征编码器:用于编码少样本示例的目标特征;3) 渐进式查询聚合模块:将样本特征信息逐步聚合到不同尺度的特征图上,生成高分辨率的密集查询;4) 检测头:基于密集查询进行目标检测和计数。

关键创新:GECO2的关键创新在于其渐进式查询聚合模块。该模块能够有效地融合不同尺度的特征信息,生成具有丰富上下文信息的高分辨率密集查询,从而显著提升了对多尺度目标的检测能力。与现有方法中简单的特征融合相比,GECO2的渐进式聚合方式能够更好地保留和利用不同尺度的特征信息。

关键设计:GECO2的具体实现细节包括:1) 使用ResNet等深度卷积神经网络作为特征提取网络;2) 采用Transformer等注意力机制来编码样本特征;3) 设计了一种多层级的聚合结构,逐步将样本特征信息融合到不同尺度的特征图上;4) 使用标准的检测损失函数(如Focal Loss)进行训练。

📊 实验亮点

GECO2在少样本目标计数任务上取得了显著的性能提升。实验结果表明,GECO2在计数和检测精度上均超过了当前最先进的方法10%,同时运行速度提升了3倍,并且减少了GPU内存占用。这些结果充分证明了GECO2在处理多尺度目标计数问题上的有效性和优越性。

🎯 应用场景

GECO2在多个领域具有广泛的应用前景,例如:智能安防(人群计数、车辆计数)、遥感图像分析(建筑物计数、植被计数)、医学图像分析(细胞计数、肿瘤检测)等。该方法能够有效处理复杂场景下的目标计数问题,具有重要的实际应用价值,并有望推动相关领域的发展。

📄 摘要(原文)

Few-shot detection-based counters estimate the number of instances in the image specified only by a few test-time exemplars. A common approach to localize objects across multiple sizes is to merge backbone features of different resolutions. Furthermore, to enable small object detection in densely populated regions, the input image is commonly upsampled and tiling is applied to cope with the increased computational and memory requirements. Because of these ad-hoc solutions, existing counters struggle with images containing diverse-sized objects and densely populated regions of small objects. We propose GECO2, an end-to-end few-shot counting and detection method that explicitly addresses the object scale issues. A new dense query representation gradually aggregates exemplar-specific feature information across scales that leads to high-resolution dense queries that enable detection of large as well as small objects. GECO2 surpasses state-of-the-art few-shot counters in counting as well as detection accuracy by 10% while running 3x times faster at smaller GPU memory footprint.