NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving
作者: Kai Luo, Xu Wang, Rui Fan, Kailun Yang
分类: cs.CV, cs.RO, eess.IV
发布日期: 2026-03-06
备注: Code will be available at https://github.com/xifen523/NOVA
🔗 代码/项目: GITHUB
💡 一句话要点
NOVA:面向自动驾驶,提出基于开放词汇自回归的3D多目标跟踪方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D多目标跟踪 开放词汇 自回归模型 大型语言模型 自动驾驶 时空语义建模 序列生成 目标跟踪
📋 核心要点
- 现有3D多目标跟踪方法受限于封闭集假设和“语义盲”启发式方法,难以泛化到未知目标。
- NOVA将3D跟踪重构为时空语义序列的生成式建模,利用LLM的自回归能力进行序列补全。
- 实验表明,NOVA在nuScenes数据集的Novel类别上AMOTA提升20.21%,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为Next-step Open-Vocabulary Autoregression (NOVA) 的创新范例,旨在解决开放世界感知中跨未知目标的泛化问题。NOVA 将传统的基于距离匹配的3D跟踪方法转变为生成式的时空语义建模。它将3D轨迹重新定义为结构化的时空语义序列,从而能够同时编码物理运动连续性和深度语言先验。通过利用大型语言模型(LLM)的自回归能力,NOVA 将跟踪任务转化为一个基于原则的序列补全过程。这种机制允许模型显式地利用语言空间的分层结构来解决细粒度的语义歧义,并通过高级常识推理在复杂的长程序列中保持身份一致性。在nuScenes、V2X-Seq-SPD和KITTI上的大量实验表明了NOVA的优越性能。值得注意的是,在nuScenes数据集上,NOVA 在 Novel 类别上实现了 22.41% 的 AMOTA,相比基线提高了 20.21%。这些提升是通过一个紧凑的 0.5B 自回归模型实现的。
🔬 方法详解
问题定义:现有的3D多目标跟踪(3D MOT)方法通常基于封闭集假设,并且依赖于“语义盲”的启发式方法,例如距离匹配。这意味着它们难以泛化到训练集中未见过的目标类别,限制了在开放世界环境中的应用。这些方法缺乏对目标语义信息的有效利用,容易在复杂场景中出现身份切换等问题。
核心思路:NOVA的核心思路是将3D跟踪问题转化为一个序列生成问题,利用大型语言模型(LLM)的自回归能力来预测目标的下一个状态。通过将3D轨迹表示为结构化的时空语义序列,NOVA能够同时编码目标的物理运动连续性和深度语言先验。这种方法允许模型利用语言空间的分层结构进行推理,从而更好地理解目标的语义信息,并保持身份一致性。
技术框架:NOVA的整体框架包括以下几个主要模块:1) 3D场景感知模块:用于从传感器数据中提取3D目标检测结果。2) 时空语义编码模块:将3D目标检测结果编码为时空语义序列,包括目标的位置、速度、类别等信息。3) 自回归预测模块:利用LLM的自回归能力,根据历史序列预测目标的下一个状态。4) 轨迹关联模块:将预测结果与已有的轨迹进行关联,更新轨迹信息。
关键创新:NOVA最重要的技术创新点在于将3D跟踪问题转化为一个基于LLM的序列生成问题。与传统的基于距离匹配的方法不同,NOVA能够利用LLM的强大语义理解和推理能力,从而更好地处理复杂场景中的跟踪问题。此外,NOVA还引入了时空语义编码,使得模型能够同时考虑目标的物理运动和语义信息。
关键设计:NOVA使用了一个紧凑的0.5B参数的自回归模型。在训练过程中,使用了交叉熵损失函数来优化模型的预测能力。此外,还设计了一种特殊的序列表示方法,将3D目标的位置、速度、类别等信息编码为离散的token序列,以便LLM进行处理。
🖼️ 关键图片
📊 实验亮点
NOVA在nuScenes数据集上取得了显著的性能提升,在Novel类别上实现了22.41%的AMOTA,相比基线提高了20.21%。此外,在V2X-Seq-SPD和KITTI数据集上也取得了有竞争力的结果。值得注意的是,这些提升是通过一个紧凑的0.5B自回归模型实现的,表明NOVA具有较高的效率和实用性。
🎯 应用场景
NOVA的研究成果可广泛应用于自动驾驶、机器人导航、智能监控等领域。通过提升对未知目标的跟踪能力,可以增强自动驾驶系统在复杂开放环境中的安全性和可靠性。该方法还可以应用于机器人导航,帮助机器人在动态环境中更好地理解和跟踪行人、车辆等目标。此外,在智能监控领域,NOVA可以用于识别和跟踪异常行为,提高安全防范能力。
📄 摘要(原文)
Generalizing across unknown targets is critical for open-world perception, yet existing 3D Multi-Object Tracking (3D MOT) pipelines remain limited by closed-set assumptions and ``semantic-blind'' heuristics. To address this, we propose Next-step Open-Vocabulary Autoregression (NOVA), an innovative paradigm that shifts 3D tracking from traditional fragmented distance-based matching toward generative spatio-temporal semantic modeling. NOVA reformulates 3D trajectories as structured spatio-temporal semantic sequences, enabling the simultaneous encoding of physical motion continuity and deep linguistic priors. By leveraging the autoregressive capabilities of Large Language Models (LLMs), we transform the tracking task into a principled process of next-step sequence completion. This mechanism allows the model to explicitly utilize the hierarchical structure of language space to resolve fine-grained semantic ambiguities and maintain identity consistency across complex long-range sequences through high-level commonsense reasoning. Extensive experiments on nuScenes, V2X-Seq-SPD, and KITTI demonstrate the superior performance of NOVA. Notably, on the nuScenes dataset, NOVA achieves an AMOTA of 22.41% for Novel categories, yielding a significant 20.21% absolute improvement over the baseline. These gains are realized through a compact 0.5B autoregressive model. Code will be available at https://github.com/xifen523/NOVA.