UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

📄 arXiv: 2604.02241v1 📥 PDF

作者: Qiyao Zhang, Shuhua Zheng, Jianli Sun, Chengxiang Li, Xianke Wu, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian

分类: cs.CV, cs.RO

发布日期: 2026-04-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出UAV-Track VLA模型,解决复杂城市场景下无人机视觉-语言-动作多模态跟踪问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机跟踪 视觉语言动作模型 多模态融合 时间压缩网络 空间感知 CARLA模拟器 零样本学习

📋 核心要点

  1. 现有VLA模型在无人机跟踪任务中存在时间特征冗余,且缺乏空间几何先验,影响跟踪精度和效率。
  2. UAV-Track VLA通过引入时间压缩网络和双分支解码器,有效提取帧间动态信息,并解耦跨模态特征,生成精确动作。
  3. 实验表明,UAV-Track VLA在长距离行人跟踪任务中显著优于现有方法,并具有良好的零样本泛化能力和实时性。

📝 摘要(中文)

本文针对无人机在复杂城市场景中执行任务时,对多模态跟踪的需求,提出了基于视觉-语言-动作(VLA)模型的UAV-Track VLA。为了评估这种环境下的多模态跟踪,构建了一个包含超过890K帧、176个任务和85个不同对象的大规模数据集和评估基准。为了解决现有VLA模型中存在的时间特征冗余和缺乏空间几何先验的问题,本文提出了一种改进的VLA跟踪模型UAV-Track VLA。该模型基于$π_{0.5}$架构,引入了时间压缩网络以有效捕获帧间动态。此外,设计了一个并行的双分支解码器,包含一个空间感知辅助定位头和一个流匹配动作专家,以解耦跨模态特征并生成细粒度的连续动作。在CARLA模拟器中的实验验证了该方法的优越端到端性能。尤其是在具有挑战性的长距离行人跟踪任务中,UAV-Track VLA实现了61.76%的成功率和269.65的平均跟踪帧数,显著优于现有基线。此外,它还在未见过的环境中展示了强大的零样本泛化能力,并将单步推理延迟降低了33.4%(至0.0571秒),与原始$π_{0.5}$相比,实现了高效的实时无人机控制。

🔬 方法详解

问题定义:论文旨在解决无人机在复杂城市场景下进行视觉-语言-动作多模态跟踪的问题。现有VLA模型在处理此类任务时,存在时间特征冗余,导致计算效率低下;同时,缺乏对场景空间几何信息的有效利用,影响了跟踪的准确性和鲁棒性。这些问题限制了VLA模型在实际无人机应用中的性能。

核心思路:论文的核心思路是通过引入时间压缩网络来减少时间冗余,并设计一个双分支解码器来融合空间信息和解耦跨模态特征。时间压缩网络旨在提取关键帧间动态信息,降低计算负担。双分支解码器则分别处理空间定位和动作生成,从而提高跟踪精度和动作的合理性。这种设计旨在提升VLA模型在复杂环境下的跟踪性能和实时性。

技术框架:UAV-Track VLA模型基于$π_{0.5}$架构。整体流程如下:首先,输入视觉和语言信息。然后,通过时间压缩网络提取关键帧间动态特征。接着,利用双分支解码器,一个分支(空间感知辅助定位头)负责空间定位,另一个分支(流匹配动作专家)负责生成连续动作。最后,无人机根据生成的动作执行跟踪任务。

关键创新:论文的关键创新在于:1) 引入时间压缩网络,有效降低了时间特征的冗余,提高了计算效率。2) 设计了并行的双分支解码器,将空间定位和动作生成解耦,提高了跟踪精度和动作的合理性。3) 构建了一个大规模无人机跟踪数据集,为VLA模型在无人机领域的应用提供了基准。

关键设计:时间压缩网络的具体结构未知,但其目标是减少时间维度上的冗余信息。双分支解码器中,空间感知辅助定位头可能利用了注意力机制或卷积神经网络来提取空间特征,并预测目标的位置。流匹配动作专家可能采用了强化学习或模仿学习的方法,根据视觉和语言信息生成连续的动作序列。损失函数的设计可能包括定位损失、动作损失以及用于约束两个分支一致性的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UAV-Track VLA在CARLA模拟器中进行了系统实验,结果表明其在长距离行人跟踪任务中取得了显著的性能提升。具体而言,成功率达到61.76%,平均跟踪帧数为269.65,显著优于现有基线方法。此外,该模型还展现出强大的零样本泛化能力,能够在未见过的环境中进行有效跟踪。同时,单步推理延迟降低了33.4%,达到0.0571秒,实现了高效的实时控制。

🎯 应用场景

该研究成果可应用于多种无人机应用场景,例如:智能安防、物流配送、灾害救援、环境监测等。通过视觉-语言-动作模型的融合,无人机能够更好地理解人类指令,并在复杂环境中自主完成跟踪任务,提高工作效率和安全性。未来,该技术有望进一步拓展到其他机器人领域,实现更智能的人机协作。

📄 摘要(原文)

Embodied visual tracking is crucial for Unmanned Aerial Vehicles (UAVs) executing complex real-world tasks. In dynamic urban scenarios with complex semantic requirements, Vision-Language-Action (VLA) models show great promise due to their cross-modal fusion and continuous action generation capabilities. To benchmark multimodal tracking in such environments, we construct a dedicated evaluation benchmark and a large-scale dataset encompassing over 890K frames, 176 tasks, and 85 diverse objects. Furthermore, to address temporal feature redundancy and the lack of spatial geometric priors in existing VLA models, we propose an improved VLA tracking model, UAV-Track VLA. Built upon the $π_{0.5}$ architecture, our model introduces a temporal compression net to efficiently capture inter-frame dynamics. Additionally, a parallel dual-branch decoder comprising a spatial-aware auxiliary grounding head and a flow matching action expert is designed to decouple cross-modal features and generate fine-grained continuous actions. Systematic experiments in the CARLA simulator validate the superior end-to-end performance of our method. Notably, in challenging long-distance pedestrian tracking tasks, UAV-Track VLA achieves a 61.76\% success rate and 269.65 average tracking frames, significantly outperforming existing baselines. Furthermore, it demonstrates robust zero-shot generalization in unseen environments and reduces single-step inference latency by 33.4\% (to 0.0571s) compared to the original $π_{0.5}$, enabling highly efficient, real-time UAV control. Data samples and demonstration videos are available at: https://github.com/Hub-Tian/UAV-Track_VLA.