LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

📄 arXiv: 2603.01928v1 📥 PDF

作者: Yuechen Luo, Fang Li, Shaoqing Xu, Yang Ji, Zehan Zhang, Bing Wang, Yuannan Shen, Jianwei Cui, Long Chen, Guang Chen, Hangjun Ye, Zhi-Xin Yang, Fuxi Wen

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出LaST-VLA,通过潜在时空推理解决自动驾驶中视觉-语言-动作模型的语义解耦问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 潜在空间推理 时空推理 强化学习 几何约束 动态预测

📋 核心要点

  1. 现有VLA模型依赖显式文本CoT,导致语义与感知分离,以及感知与符号之间的冲突。
  2. LaST-VLA通过在潜在时空空间中进行推理,并融入几何约束和动态预测,解决上述问题。
  3. 实验表明,LaST-VLA在多个自动驾驶基准测试中取得了显著的性能提升,刷新了NAVSIM v1和v2的记录。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通过统一感知和规划,革新了自动驾驶领域。然而,它们对显式文本思维链(CoT)的依赖导致了语义-感知解耦和感知-符号冲突。最近向潜在推理的转变试图通过在连续隐藏空间中思考来绕过这些瓶颈。但是,在没有显式中间约束的情况下,标准的潜在CoT通常作为一种与物理无关的表示运行。为了解决这个问题,我们提出了潜在时空VLA(LaST-VLA),该框架将推理范式从离散符号处理转变为物理基础的潜在时空CoT。通过实现双特征对齐机制,我们将来自3D基础模型的几何约束和来自世界模型的动态预测直接提取到潜在空间中。结合从特征对齐到轨迹生成的渐进式SFT训练策略,并通过具有群体相对策略优化(GRPO)的强化学习进行改进,以确保安全性和规则遵从性。LaST-VLA在NAVSIM v1(91.3 PDMS)和NAVSIM v2(87.1 EPDMS)上创造了新的记录,同时在SURDS和NuDynamics基准测试中表现出色。

🔬 方法详解

问题定义:现有VLA模型依赖于显式的文本思维链(CoT)进行推理,这导致了语义-感知解耦和感知-符号冲突。此外,标准的潜在CoT方法缺乏明确的中间约束,导致其作为一种与物理无关的表示运行,无法有效指导自动驾驶任务。

核心思路:LaST-VLA的核心思路是将推理过程从离散的符号空间转移到连续的、物理基础的潜在时空空间中。通过将几何约束和动态预测信息融入到潜在空间中,模型可以更好地理解和预测环境,从而做出更合理的决策。

技术框架:LaST-VLA框架包含以下主要模块:1) 双特征对齐机制,用于将来自3D基础模型的几何约束和来自世界模型的动态预测提取到潜在空间中;2) 渐进式SFT训练策略,从特征对齐过渡到轨迹生成;3) 基于群体相对策略优化(GRPO)的强化学习,用于提高安全性和规则遵从性。

关键创新:LaST-VLA的关键创新在于其在潜在时空空间中进行推理,并将几何约束和动态预测信息融入到潜在空间中。这与传统的基于显式文本CoT的VLA模型以及缺乏物理约束的潜在CoT方法有着本质的区别。

关键设计:双特征对齐机制的具体实现方式(例如,使用的损失函数、网络结构等)以及GRPO强化学习的奖励函数设计等细节在论文中应该有更详细的描述。渐进式SFT训练策略的具体步骤和参数设置也是关键的设计细节。这些细节决定了模型的性能和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaST-VLA在NAVSIM v1上取得了91.3 PDMS的成绩,在NAVSIM v2上取得了87.1 EPDMS的成绩,均刷新了现有记录。此外,该模型在SURDS和NuDynamics等空间-时间推理基准测试中也表现出色,证明了其在复杂自动驾驶场景下的有效性。

🎯 应用场景

LaST-VLA的研究成果可应用于各种自动驾驶场景,例如城市道路导航、高速公路驾驶和泊车辅助等。该方法能够提高自动驾驶系统的安全性、可靠性和智能化水平,并有望推动自动驾驶技术的商业化落地。此外,该研究思路也可以推广到其他需要进行复杂推理和决策的机器人应用领域。

📄 摘要(原文)

While Vision-Language-Action (VLA) models have revolutionized autonomous driving by unifying perception and planning, their reliance on explicit textual Chain-of-Thought (CoT) leads to semantic-perceptual decoupling and perceptual-symbolic conflicts. Recent shifts toward latent reasoning attempt to bypass these bottlenecks by thinking in continuous hidden space. However, without explicit intermediate constraints, standard latent CoT often operates as a physics-agnostic representation. To address this, we propose the Latent Spatio-Temporal VLA (LaST-VLA), a framework shifting the reasoning paradigm from discrete symbolic processing into a physically grounded Latent Spatio-Temporal CoT. By implementing a dual-feature alignment mechanism, we distill geometric constraints from 3D foundation models and dynamic foresight from world models directly into the latent space. Coupled with a progressive SFT training strategy that transitions from feature alignment to trajectory generation, and refined via Reinforcement Learning with Group Relative Policy Optimization (GRPO) to ensure safety and rule compliance. \method~setting a new record on NAVSIM v1 (91.3 PDMS) and NAVSIM v2 (87.1 EPDMS), while excelling in spatial-temporal reasoning on SURDS and NuDynamics benchmarks.