AR-MOT: Autoregressive Multi-object Tracking
作者: Lianjie Jia, Yuhan Wu, Binghao Ran, Yifan Wang, Lijun Wang, Huchuan Lu
分类: cs.CV
发布日期: 2026-01-05
备注: 12 pages, 5 figures
💡 一句话要点
提出AR-MOT:一种基于自回归的大语言模型多目标跟踪框架,实现更灵活的任务泛化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多目标跟踪 自回归模型 大型语言模型 序列生成 目标检测
📋 核心要点
- 现有MOT方法依赖于固定的输出头和定制的跟踪流程,难以扩展到更复杂的任务或指令驱动的场景。
- AR-MOT将MOT建模为LLM框架内的序列生成任务,通过灵活的序列构建输出结构化结果,无需特定任务的头部。
- 在MOT17和DanceTrack数据集上的实验表明,AR-MOT达到了与SOTA方法相当的性能,并为更通用的MOT系统奠定了基础。
📝 摘要(中文)
本文提出AR-MOT,一种新颖的自回归范式,将多目标跟踪(MOT)任务构建为大型语言模型(LLM)框架内的序列生成任务。这种设计使得模型能够通过灵活的序列构建输出结构化结果,而无需任何特定于任务的头部。为了增强区域级别的视觉感知,引入了基于预训练检测器的对象标记器。为了减轻全局和区域特征之间的错位,提出了区域感知对齐(RAA)模块。为了支持长期跟踪,设计了时间记忆融合(TMF)模块,用于缓存历史对象标记。AR-MOT具有强大的可扩展性潜力,因为可以通过简单地修改输出序列格式来集成新的模态或指令,而无需更改模型架构。在MOT17和DanceTrack上的大量实验验证了该方法的可行性,实现了与最先进方法相当的性能,同时为更通用和灵活的MOT系统奠定了基础。
🔬 方法详解
问题定义:现有的多目标跟踪方法通常采用固定的架构和特定于任务的输出头,这限制了它们在不同场景和任务中的泛化能力。当需要处理新的模态或指令时,往往需要对整个模型架构进行修改,缺乏灵活性和可扩展性。
核心思路:AR-MOT的核心思路是将多目标跟踪问题转化为一个序列生成问题,并利用大型语言模型(LLM)的强大能力来解决。通过将跟踪结果表示为序列,模型可以灵活地输出结构化的信息,而无需依赖于特定于任务的输出头。这种方法使得模型能够更容易地适应新的任务和模态,从而提高了泛化能力。
技术框架:AR-MOT的整体框架包括以下几个主要模块:1) 对象标记器(Object Tokenizer):利用预训练的检测器提取图像中的目标区域,并将这些区域转换为token序列。2) 区域感知对齐(RAA)模块:用于对齐全局特征和区域特征,从而提高模型对目标区域的感知能力。3) 时间记忆融合(TMF)模块:用于缓存历史对象token,从而支持长期跟踪。4) LLM:使用大型语言模型来生成跟踪结果序列。
关键创新:AR-MOT的关键创新在于将多目标跟踪问题建模为一个序列生成问题,并利用LLM的强大能力来解决。这种方法摆脱了传统MOT方法对固定架构和特定任务输出头的依赖,从而提高了模型的泛化能力和可扩展性。此外,RAA模块和TMF模块的设计也有效地提高了模型的跟踪性能。
关键设计:对象标记器使用预训练的检测器(例如,Faster R-CNN)来提取目标区域。RAA模块使用注意力机制来对齐全局特征和区域特征。TMF模块使用循环神经网络(RNN)来缓存历史对象token。LLM可以使用Transformer架构,并采用自回归的方式生成跟踪结果序列。损失函数可以使用交叉熵损失或类似的序列生成损失函数。
🖼️ 关键图片
📊 实验亮点
AR-MOT在MOT17和DanceTrack数据集上进行了广泛的实验,结果表明该方法能够达到与最先进方法相当的性能。尤其是在DanceTrack数据集上,AR-MOT展现了良好的跟踪精度和鲁棒性,验证了其在复杂场景下的适用性。此外,实验还证明了AR-MOT具有良好的可扩展性,可以通过简单地修改输出序列格式来集成新的模态或指令,而无需更改模型架构。
🎯 应用场景
AR-MOT具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航等领域。该方法可以应用于各种场景,包括人群计数、交通流量分析、运动目标跟踪等。由于其良好的可扩展性,AR-MOT还可以方便地集成新的模态信息,例如语音、文本等,从而实现更智能的多目标跟踪系统。未来,AR-MOT有望成为通用多目标跟踪系统的基础。
📄 摘要(原文)
As multi-object tracking (MOT) tasks continue to evolve toward more general and multi-modal scenarios, the rigid and task-specific architectures of existing MOT methods increasingly hinder their applicability across diverse tasks and limit flexibility in adapting to new tracking formulations. Most approaches rely on fixed output heads and bespoke tracking pipelines, making them difficult to extend to more complex or instruction-driven tasks. To address these limitations, we propose AR-MOT, a novel autoregressive paradigm that formulates MOT as a sequence generation task within a large language model (LLM) framework. This design enables the model to output structured results through flexible sequence construction, without requiring any task-specific heads. To enhance region-level visual perception, we introduce an Object Tokenizer based on a pretrained detector. To mitigate the misalignment between global and regional features, we propose a Region-Aware Alignment (RAA) module, and to support long-term tracking, we design a Temporal Memory Fusion (TMF) module that caches historical object tokens. AR-MOT offers strong potential for extensibility, as new modalities or instructions can be integrated by simply modifying the output sequence format without altering the model architecture. Extensive experiments on MOT17 and DanceTrack validate the feasibility of our approach, achieving performance comparable to state-of-the-art methods while laying the foundation for more general and flexible MOT systems.