Global-to-Local or Local-to-Global? Enhancing Image Retrieval with Efficient Local Search and Effective Global Re-ranking

📄 arXiv: 2509.04351v2 📥 PDF

作者: Dror Aiger, Bingyi Cao, Kaifeng Chen, Andre Araujo

分类: cs.IR, cs.CV

发布日期: 2025-09-04 (更新: 2025-09-05)


💡 一句话要点

提出局部到全局图像检索框架,结合高效局部搜索与有效全局重排序,显著提升检索性能。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 图像检索 局部特征 全局特征 重排序 多维尺度分析

📋 核心要点

  1. 现有图像检索系统依赖全局特征进行初步检索,再用局部特征重排序,但局部特征计算量大限制了其应用。
  2. 论文提出局部到全局的检索范式,先用高效局部特征搜索,再用全局特征重排序,提升检索效率和精度。
  3. 实验表明,该方法在Revisited Oxford和Paris数据集上取得了新的state-of-the-art结果,验证了其有效性。

📝 摘要(中文)

当前图像检索系统的主流范式是使用全局图像特征搜索大型数据库,然后使用局部图像特征匹配技术对初始结果进行重排序,即“全局到局部”方法。这种设计源于局部匹配方法计算成本高昂,只能用于少量检索图像。然而,新兴的高效局部特征搜索方法开辟了新的可能性,尤其是在大规模数据集上实现精细检索,以找到全局特征搜索经常遗漏的局部匹配。同时,基于全局特征的重排序在计算效率方面表现出良好的结果。本文利用这些构建块,提出了一种“局部到全局”的检索范式,其中高效的局部特征搜索与有效的全局特征重排序相结合。关键在于,我们提出了一种重排序方法,其中全局特征是基于局部特征检索相似性动态计算的。这种仅用于重排序的全局特征利用多维尺度分析技术创建嵌入,从而尊重搜索期间获得的局部相似性,从而显著提升重排序效果。实验表明,我们的方法具有强大的检索性能,并在Revisited Oxford和Paris数据集上取得了新的state-of-the-art结果。

🔬 方法详解

问题定义:现有图像检索系统通常采用“全局到局部”的策略,即先使用全局特征进行快速检索,然后使用局部特征进行重排序。这种策略的瓶颈在于局部特征匹配的计算复杂度较高,只能对少量候选图像进行重排序,导致一些局部匹配良好的图像被遗漏。因此,如何在大规模数据集上高效地利用局部特征进行检索是一个关键问题。

核心思路:论文的核心思路是采用“局部到全局”的检索范式,即先使用高效的局部特征搜索方法找到候选图像,然后基于这些候选图像的局部特征相似性,动态计算全局特征进行重排序。这种方法充分利用了局部特征的判别能力,同时通过全局特征的重排序,提高了检索的准确性和鲁棒性。

技术框架:该方法主要包含两个阶段:1) 高效局部特征搜索:使用高效的局部特征搜索算法(具体算法未知)在大规模图像数据库中找到与查询图像局部特征相似的候选图像。2) 基于局部相似性的全局特征重排序:基于第一阶段获得的局部特征相似性,动态计算候选图像的全局特征,并使用这些全局特征对候选图像进行重排序。其中,全局特征的计算采用了多维尺度分析(Multidimensional Scaling, MDS)技术,将局部相似性信息嵌入到全局特征空间中。

关键创新:该方法最重要的创新点在于提出了“局部到全局”的检索范式,并设计了一种基于局部相似性的全局特征重排序方法。与传统的“全局到局部”方法相比,该方法能够更充分地利用局部特征的判别能力,同时避免了全局特征搜索可能遗漏局部匹配良好的图像的问题。此外,动态计算全局特征的方式也提高了计算效率。

关键设计:论文的关键设计在于如何基于局部特征相似性计算全局特征。具体而言,论文使用多维尺度分析(MDS)技术,将局部特征相似性矩阵转换为全局特征向量。MDS的目标是在低维空间中保持高维空间中点之间的距离关系。在本论文中,高维空间中的点代表图像,点之间的距离代表局部特征相似性的倒数。通过MDS,可以将图像嵌入到一个低维的全局特征空间中,从而可以使用这些全局特征进行重排序。具体的MDS实现细节和参数设置未知。

📊 实验亮点

该论文在Revisited Oxford和Paris数据集上取得了state-of-the-art的结果,证明了所提出方法的有效性。具体的性能提升数据未知,但摘要强调了“显著提升重排序效果”,表明该方法在检索精度方面有显著改进。与现有方法相比,该方法能够更有效地利用局部特征,从而提高检索性能。

🎯 应用场景

该研究成果可广泛应用于图像检索、目标识别、图像分类等领域。例如,在电商平台中,可以根据用户上传的商品图片,快速找到相似的商品;在安防监控领域,可以根据监控视频中的局部特征,快速检索到相关的图像或视频。该方法有望提升图像检索系统的性能和用户体验。

📄 摘要(原文)

The dominant paradigm in image retrieval systems today is to search large databases using global image features, and re-rank those initial results with local image feature matching techniques. This design, dubbed global-to-local, stems from the computational cost of local matching approaches, which can only be afforded for a small number of retrieved images. However, emerging efficient local feature search approaches have opened up new possibilities, in particular enabling detailed retrieval at large scale, to find partial matches which are often missed by global feature search. In parallel, global feature-based re-ranking has shown promising results with high computational efficiency. In this work, we leverage these building blocks to introduce a local-to-global retrieval paradigm, where efficient local feature search meets effective global feature re-ranking. Critically, we propose a re-ranking method where global features are computed on-the-fly, based on the local feature retrieval similarities. Such re-ranking-only global features leverage multidimensional scaling techniques to create embeddings which respect the local similarities obtained during search, enabling a significant re-ranking boost. Experimentally, we demonstrate solid retrieval performance, setting new state-of-the-art results on the Revisited Oxford and Paris datasets.