DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

作者: Sicheng Zuo, Zixun Xie, Wenzhao Zheng, Shaoqing Xu, Fang Li, Hanbing Li, Long Chen, Zhi-Xin Yang, Jiwen Lu

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-01

备注: Code is available at \href{https://github.com/wzzheng/DVGT}

💡 一句话要点

提出DVGT-2，用于大规模自动驾驶场景下的视觉-几何-动作在线规划。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉几何动作模型 在线规划 稠密几何重建 Transformer

📋 核心要点

现有端到端自动驾驶方法依赖稀疏感知，或使用视觉-语言-动作模型，但忽略了稠密3D几何信息的重要性。
DVGT-2采用视觉-几何-动作范式，通过流式处理和历史信息缓存，实现高效的在线稠密几何重建和轨迹规划。
实验表明，DVGT-2在几何重建和轨迹规划上均有提升，且具备跨相机配置的泛化能力，无需额外微调。

📝 摘要（中文）

本文提出了一种新的自动驾驶范式，即视觉-几何-动作（VGA）模型，强调稠密3D几何信息是自动驾驶的关键线索。针对现有几何重建方法（如DVGT）依赖多帧输入的批量处理且计算量大的问题，提出了流式驾驶视觉几何变换器（DVGT-2），该模型以在线方式处理输入，并联合输出当前帧的稠密几何信息和轨迹规划。DVGT-2采用时间因果注意力机制和历史特征缓存来支持在线推理。为了进一步提高效率，提出了一种滑动窗口流式策略，并在一定间隔内使用历史缓存以避免重复计算。实验表明，DVGT-2在各种数据集上实现了优越的几何重建性能，并且无需微调即可直接应用于不同相机配置下的规划任务，包括闭环NAVSIM和开环nuScenes基准测试。

🔬 方法详解

问题定义：现有基于视觉-语言-动作的自动驾驶模型，通常依赖语言描述作为辅助任务，而忽略了车辆在3D世界中运行，稠密3D几何信息对于决策至关重要。现有的几何重建方法，例如DVGT，需要对多帧输入进行批处理，计算成本高昂，无法应用于在线规划。

核心思路：本文的核心思路是将稠密3D几何信息作为自动驾驶的关键线索，并设计一个能够在线处理输入并输出几何信息和轨迹规划的模型。通过流式处理和历史信息缓存，在保证精度的前提下，提高计算效率，使其能够应用于实时自动驾驶场景。

技术框架：DVGT-2的整体框架是一个流式的Transformer结构。它接收单帧图像作为输入，通过视觉编码器提取特征，然后利用时间因果注意力机制和历史特征缓存来融合时间信息。模型同时输出稠密几何信息（例如深度图）和车辆的轨迹规划。为了提高效率，采用了滑动窗口流式策略，避免重复计算。

关键创新：DVGT-2的关键创新在于其流式处理能力和对历史信息的有效利用。传统方法需要批处理多帧数据，而DVGT-2可以逐帧处理，并通过时间因果注意力和历史特征缓存来保持时间一致性。滑动窗口策略进一步提高了计算效率。这使得DVGT-2能够应用于在线自动驾驶场景。

关键设计：DVGT-2使用了时间因果注意力机制，确保模型只能关注过去的信息，避免“偷看”未来信息。历史特征缓存用于存储过去帧的特征，并在当前帧的处理中使用，从而保持时间一致性。滑动窗口大小和缓存间隔是重要的超参数，需要根据具体应用场景进行调整。损失函数包括几何重建损失（例如深度图的L1损失）和轨迹规划损失（例如轨迹点之间的距离损失）。

🖼️ 关键图片

📊 实验亮点

DVGT-2在几何重建任务上优于现有方法，并在闭环NAVSIM和开环nuScenes基准测试中取得了良好的规划性能。值得注意的是，DVGT-2无需针对不同相机配置进行微调，即可直接应用于规划任务，展示了其强大的泛化能力。具体性能数据在论文中给出，相较于基线模型，DVGT-2在几何重建精度和规划成功率上均有显著提升。

🎯 应用场景

DVGT-2可应用于各种自动驾驶场景，例如城市道路自动驾驶、高速公路自动驾驶和越野自动驾驶。其在线处理能力使其能够应用于实时决策和规划。此外，DVGT-2的跨相机配置泛化能力使其能够适应不同的车辆平台和传感器配置，降低了部署成本。该研究为端到端自动驾驶提供了一种新的思路，有望推动自动驾驶技术的进一步发展。

📄 摘要（原文）

End-to-end autonomous driving has evolved from the conventional paradigm based on sparse perception into vision-language-action (VLA) models, which focus on learning language descriptions as an auxiliary task to facilitate planning. In this paper, we propose an alternative Vision-Geometry-Action (VGA) paradigm that advocates dense 3D geometry as the critical cue for autonomous driving. As vehicles operate in a 3D world, we think dense 3D geometry provides the most comprehensive information for decision-making. However, most existing geometry reconstruction methods (e.g., DVGT) rely on computationally expensive batch processing of multi-frame inputs and cannot be applied to online planning. To address this, we introduce a streaming Driving Visual Geometry Transformer (DVGT-2), which processes inputs in an online manner and jointly outputs dense geometry and trajectory planning for the current frame. We employ temporal causal attention and cache historical features to support on-the-fly inference. To further enhance efficiency, we propose a sliding-window streaming strategy and use historical caches within a certain interval to avoid repetitive computations. Despite the faster speed, DVGT-2 achieves superior geometry reconstruction performance on various datasets. The same trained DVGT-2 can be directly applied to planning across diverse camera configurations without fine-tuning, including closed-loop NAVSIM and open-loop nuScenes benchmarks.

DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理