RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

📄 arXiv: 2603.03617v1 📥 PDF

作者: Hao Li, Yuhao Wang, Wenning Hao, Pingping Zhang, Dong Wang, Huchuan Lu

分类: cs.CV

发布日期: 2026-03-04

备注: This work is accepted by CVPR2026. More modifications may be performed

🔗 代码/项目: GITHUB


💡 一句话要点

提出RAGTrack,利用检索增强生成框架解决RGBT跟踪中目标建模和模态融合问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RGBT跟踪 检索增强生成 多模态融合 视觉语言建模 Transformer 目标跟踪 自适应Token融合

📋 核心要点

  1. 现有RGBT跟踪器依赖初始帧视觉信息,缺乏语言指导,难以适应目标外观变化。
  2. RAGTrack利用检索增强生成框架,结合多模态Transformer编码器和自适应Token融合,实现鲁棒跟踪。
  3. 实验表明,RAGTrack在多个RGBT基准测试中取得了最先进的性能,提升了跟踪精度。

📝 摘要(中文)

RGB-Thermal (RGBT) 跟踪旨在通过融合可见光和热红外模态,在各种环境条件下实现鲁棒的目标定位。然而,现有的RGBT跟踪器仅依赖于初始帧的视觉信息进行目标建模,由于缺乏语言指导,无法适应外观变化。此外,当前方法存在冗余搜索区域和异构模态差距,导致背景干扰。为了解决这些问题,我们首先将文本描述引入RGBT跟踪基准,通过利用多模态大型语言模型 (MLLM) 自动生成文本注释的流程来实现。然后,我们提出了RAGTrack,一种用于鲁棒RGBT跟踪的新型检索增强生成框架。为此,我们引入了一个多模态Transformer编码器 (MTE) 用于统一的视觉-语言建模。然后,我们设计了一个自适应Token融合 (ATF) 来选择目标相关的token,并基于跨模态相关性执行通道交换,从而减轻搜索冗余和模态差距。最后,我们提出了一个上下文感知推理模块 (CRM) 来维护动态知识库,并采用检索增强生成 (RAG) 来实现时间语言推理,从而实现鲁棒的目标建模。在四个RGBT基准上的大量实验表明,我们的框架在各种具有挑战性的场景中实现了最先进的性能。

🔬 方法详解

问题定义:现有RGBT跟踪方法主要依赖初始帧的视觉信息进行目标建模,忽略了目标在跟踪过程中可能发生的外观变化。此外,搜索区域存在冗余,且RGB和Thermal模态之间存在异构性差距,容易受到背景干扰,影响跟踪精度。

核心思路:RAGTrack的核心思路是引入语言信息,利用检索增强生成(RAG)框架,结合视觉和语言信息进行目标建模。通过动态知识库和时间语言推理,使跟踪器能够适应目标外观变化,并减少模态差距和背景干扰。

技术框架:RAGTrack框架主要包含以下几个模块:1) 多模态Transformer编码器 (MTE):用于统一的视觉-语言建模,提取图像和文本特征。2) 自适应Token融合 (ATF):根据跨模态相关性选择目标相关的token,并进行通道交换,减少搜索冗余和模态差距。3) 上下文感知推理模块 (CRM):维护动态知识库,利用检索增强生成 (RAG) 进行时间语言推理,实现鲁棒的目标建模。

关键创新:RAGTrack的关键创新在于将检索增强生成(RAG)引入RGBT跟踪任务,利用语言信息增强目标建模能力。通过多模态Transformer编码器、自适应Token融合和上下文感知推理模块,实现了更鲁棒、更准确的RGBT跟踪。与现有方法相比,RAGTrack能够更好地适应目标外观变化,并减少模态差距和背景干扰。

关键设计:自适应Token融合 (ATF) 模块通过计算跨模态相关性,动态选择目标相关的token,并进行通道交换,从而减少搜索冗余和模态差距。上下文感知推理模块 (CRM) 维护一个动态知识库,存储目标的历史信息,并利用检索增强生成 (RAG) 进行时间语言推理,从而实现鲁棒的目标建模。具体参数设置和损失函数细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAGTrack在四个RGBT基准测试中取得了state-of-the-art的性能。实验结果表明,RAGTrack在各种具有挑战性的场景中,例如光照变化、遮挡、尺度变化等,均表现出优异的跟踪性能,显著优于现有的RGBT跟踪方法。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

RAGTrack在安防监控、自动驾驶、机器人导航等领域具有广泛的应用前景。该方法能够提升在复杂环境和光照条件下的目标跟踪精度,增强系统的鲁棒性和可靠性。未来,可以进一步扩展到其他多模态跟踪任务,例如视频监控、医疗影像分析等。

📄 摘要(原文)

RGB-Thermal (RGBT) tracking aims to achieve robust object localization across diverse environmental conditions by fusing visible and thermal infrared modalities. However, existing RGBT trackers rely solely on initial-frame visual information for target modeling, failing to adapt to appearance variations due to the absence of language guidance. Furthermore, current methods suffer from redundant search regions and heterogeneous modality gaps, causing background distraction. To address these issues, we first introduce textual descriptions into RGBT tracking benchmarks. This is accomplished through a pipeline that leverages Multi-modal Large Language Models (MLLMs) to automatically produce texual annotations. Afterwards, we propose RAGTrack, a novel Retrieval-Augmented Generation framework for robust RGBT tracking. To this end, we introduce a Multi-modal Transformer Encoder (MTE) for unified visual-language modeling. Then, we design an Adaptive Token Fusion (ATF) to select target-relevant tokens and perform channel exchanges based on cross-modal correlations, mitigating search redundancies and modality gaps. Finally, we propose a Context-aware Reasoning Module (CRM) to maintain a dynamic knowledge base and employ a Retrieval-Augmented Generation (RAG) to enable temporal linguistic reasoning for robust target modeling. Extensive experiments on four RGBT benchmarks demonstrate that our framework achieves state-of-the-art performance across various challenging scenarios. The source code is available https://github.com/IdolLab/RAGTrack.