DiffusionUavLoc: Visually Prompted Diffusion for Cross-View UAV Localization

📄 arXiv: 2511.06422v1 📥 PDF

作者: Tao Liu, Kan Ren, Qian Chen

分类: cs.CV

发布日期: 2025-11-09

🔗 代码/项目: GITHUB


💡 一句话要点

DiffusionUavLoc:基于视觉提示扩散的跨视角无人机定位方法

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 无人机定位 跨视角图像检索 扩散模型 视觉提示 几何渲染

📋 核心要点

  1. 现有跨视角无人机定位方法依赖复杂网络、文本提示或大量标注,泛化性受限,难以应对视角和几何差异。
  2. DiffusionUavLoc利用免训练几何渲染生成伪卫星图像作为结构提示,并设计无文本条件扩散模型融合多模态线索。
  3. 实验表明,DiffusionUavLoc在跨视角定位任务上具有竞争力,尤其在卫星到无人机定位方面表现突出。

📝 摘要(中文)

随着低空经济的快速发展,无人机已成为智能巡逻系统中测量和跟踪的关键平台。然而,在GNSS受限环境中,仅依赖卫星信号的定位方案容易失效。基于跨视角图像检索的定位是一种有前景的替代方案,但倾斜的无人机视角和天底卫星正射影像之间存在显著的几何和外观领域差距。此外,传统方法通常依赖于复杂的网络架构、文本提示或大量标注,这阻碍了泛化。为了解决这些问题,我们提出DiffusionUavLoc,一个跨视角定位框架,它是图像提示的、无文本的、以扩散为中心的,并采用VAE进行统一表示。我们首先使用免训练的几何渲染从无人机图像中合成伪卫星图像作为结构提示。然后,我们设计了一个无文本的条件扩散模型,该模型融合多模态结构线索,以学习对视角变化具有鲁棒性的特征。在推理时,在固定时间步长t计算描述符,并使用余弦相似度进行比较。在University-1652和SUES-200数据集上,该方法在跨视角定位方面表现出竞争力,尤其是在University-1652数据集上的卫星到无人机定位。

🔬 方法详解

问题定义:论文旨在解决在GNSS受限环境下,无人机跨视角定位问题。现有方法主要痛点在于:1) 依赖复杂的网络结构和大量标注数据,泛化能力差;2) 难以克服无人机视角与卫星视角之间的显著几何和外观差异;3) 依赖文本提示,增加了系统的复杂性。

核心思路:论文的核心思路是利用扩散模型学习视角不变的特征表示,并通过视觉提示(visual prompting)的方式,将几何结构信息融入到特征学习过程中。具体来说,首先通过几何渲染将无人机图像转换为伪卫星图像,作为扩散模型的结构提示,引导模型学习更鲁棒的特征。

技术框架:DiffusionUavLoc框架主要包含以下几个模块:1) 几何渲染模块:将无人机图像渲染成伪卫星图像,作为结构提示;2) VAE模块:用于学习图像的统一表示;3) 条件扩散模型:以VAE的输出和几何渲染的伪卫星图像作为条件,学习跨视角不变的特征表示。在推理阶段,固定扩散模型的采样步长,提取特征并计算余弦相似度进行匹配。

关键创新:论文的关键创新在于:1) 提出了基于视觉提示的扩散模型,无需文本提示,降低了系统复杂度;2) 利用免训练的几何渲染方法生成伪卫星图像,作为结构提示,有效缓解了跨视角差异;3) 采用VAE进行统一表示,简化了模型结构。

关键设计:1) 使用训练自由的几何渲染方法,避免了额外的训练成本;2) 设计了无文本的条件扩散模型,以VAE的输出和几何渲染的伪卫星图像作为条件;3) 在推理阶段,选择固定的时间步长t提取特征,避免了完整的扩散采样过程,提高了效率;4) 使用余弦相似度作为匹配度量。

📊 实验亮点

实验结果表明,DiffusionUavLoc在University-1652和SUES-200数据集上表现出竞争力,尤其是在University-1652数据集上的卫星到无人机定位任务中表现突出。该方法无需文本提示和大量标注,降低了系统复杂度,提高了泛化能力。

🎯 应用场景

该研究成果可应用于智能巡逻、灾害救援、城市管理等领域,在GNSS信号受限或不可用的情况下,实现无人机的精准定位。通过跨视角图像匹配,可以有效提高无人机在复杂环境下的自主导航能力,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

With the rapid growth of the low-altitude economy, unmanned aerial vehicles (UAVs) have become key platforms for measurement and tracking in intelligent patrol systems. However, in GNSS-denied environments, localization schemes that rely solely on satellite signals are prone to failure. Cross-view image retrieval-based localization is a promising alternative, yet substantial geometric and appearance domain gaps exist between oblique UAV views and nadir satellite orthophotos. Moreover, conventional approaches often depend on complex network architectures, text prompts, or large amounts of annotation, which hinders generalization. To address these issues, we propose DiffusionUavLoc, a cross-view localization framework that is image-prompted, text-free, diffusion-centric, and employs a VAE for unified representation. We first use training-free geometric rendering to synthesize pseudo-satellite images from UAV imagery as structural prompts. We then design a text-free conditional diffusion model that fuses multimodal structural cues to learn features robust to viewpoint changes. At inference, descriptors are computed at a fixed time step t and compared using cosine similarity. On University-1652 and SUES-200, the method performs competitively for cross-view localization, especially for satellite-to-drone in University-1652.Our data and code will be published at the following URL: https://github.com/liutao23/DiffusionUavLoc.git.