Learning Vision-Language-Action World Models for Autonomous Driving

📄 arXiv: 2604.09059v1 📥 PDF

作者: Guoqing Wang, Pin Tang, Xiangxuan Ren, Guodongfang Zhao, Bailan Feng, Chao Ma

分类: cs.CV, cs.AI

发布日期: 2026-04-10

备注: Accepted by CVPR2026 findings


💡 一句话要点

提出VLA-World模型,融合预测想象与反思推理,提升自动驾驶的预见性和安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 世界模型 视觉语言动作模型 预测想象 反思推理

📋 核心要点

  1. 现有VLA模型缺乏对时间动态和全局世界一致性的建模,限制了自动驾驶的预见性和安全性。
  2. VLA-World模型通过动作导出的轨迹引导未来图像生成,并利用生成的图像反思优化轨迹,提升预见性。
  3. 在nuScenes-GR-20K数据集上,VLA-World在规划和未来生成任务中超越了现有VLA和世界模型。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通过统一的多模态框架整合感知、推理和控制,在端到端自动驾驶中取得了显著进展。然而,它们通常缺乏对时间动态和全局世界一致性的显式建模,限制了其预见性和安全性。相比之下,世界模型可以模拟合理的未来场景,但通常难以推理或评估其生成的想象未来。本文提出了VLA-World,一个简单而有效的VLA世界模型,它统一了预测想象与反思推理,以提高驾驶预见性。VLA-World首先使用动作导出的可行轨迹来指导下一帧图像的生成,捕捉描述周围环境如何演变的丰富空间和时间线索。然后,该模型对这个自我生成的未来想象帧进行推理,以细化预测的轨迹,从而实现更高的性能和更好的可解释性。为了支持这个流程,我们整理了一个从nuScenes派生的生成推理数据集nuScenes-GR-20K,并采用了一个包括预训练、监督微调和强化学习的三阶段训练策略。大量的实验表明,在规划和未来生成基准测试中,VLA-World始终优于最先进的VLA和世界模型基线。

🔬 方法详解

问题定义:现有端到端自动驾驶的视觉-语言-动作(VLA)模型,虽然集成了感知、推理和控制,但缺乏对环境时间动态变化和全局一致性的显式建模,导致预测能力不足,影响驾驶安全。同时,传统世界模型虽然能模拟未来场景,但难以有效推理和评估这些模拟结果,无法直接用于决策。

核心思路:VLA-World的核心在于将预测想象(生成未来场景)与反思推理(评估和优化未来场景)相结合。通过预测未来,模型能够预见潜在的风险和机会;通过反思,模型能够修正预测误差,优化驾驶策略。这种结合使得模型既能“看到”未来,又能“理解”未来,从而做出更明智的决策。

技术框架:VLA-World包含以下主要模块:1) 未来图像生成器:基于当前状态和动作(可行轨迹)预测下一帧图像,捕捉环境的时空演变。2) 反思推理模块:对生成的未来图像进行推理,提取关键信息,例如交通参与者的位置和意图。3) 轨迹优化模块:利用反思推理的结果,对初始轨迹进行优化,生成更安全、更高效的驾驶轨迹。整个流程是一个迭代的过程,未来图像生成和轨迹优化相互促进,共同提升模型的性能。

关键创新:VLA-World的关键创新在于将预测想象和反思推理融合到一个统一的框架中。传统方法要么只关注预测,忽略了对预测结果的评估和利用;要么只关注推理,缺乏对未来场景的预见。VLA-World通过将两者结合,实现了更全面、更有效的自动驾驶决策。

关键设计:VLA-World使用动作导出的可行轨迹来指导未来图像的生成,这有助于模型捕捉环境的时空演变。模型采用三阶段训练策略:预训练(学习通用的视觉和语言表示)、监督微调(学习预测未来图像和优化轨迹)和强化学习(学习在复杂环境中进行决策)。此外,论文还提出了nuScenes-GR-20K数据集,用于训练和评估模型的生成推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VLA-World在nuScenes数据集上显著优于现有的VLA和世界模型。在规划任务和未来图像生成任务中,VLA-World都取得了state-of-the-art的性能。具体提升幅度未知,但论文强调了“consistently surpasses state-of-the-art”的结果。

🎯 应用场景

VLA-World模型可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。它能够提高自动驾驶系统的安全性、效率和鲁棒性,减少交通事故,优化交通流量,并扩展自动驾驶的应用范围。该研究对开发更智能、更可靠的自动驾驶系统具有重要意义。

📄 摘要(原文)

Vision-Language-Action (VLA) models have recently achieved notable progress in end-to-end autonomous driving by integrating perception, reasoning, and control within a unified multimodal framework. However, they often lack explicit modeling of temporal dynamics and global world consistency, which limits their foresight and safety. In contrast, world models can simulate plausible future scenes but generally struggle to reason about or evaluate the imagined future they generate. In this work, we present VLA-World, a simple yet effective VLA world model that unifies predictive imagination with reflective reasoning to improve driving foresight. VLA-World first uses an action-derived feasible trajectory to guide the generation of the next-frame image, capturing rich spatial and temporal cues that describe how the surrounding environment evolves. The model then reasons over this self-generated future imagined frame to refine the predicted trajectory, achieving higher performance and better interpretability. To support this pipeline, we curate nuScenes-GR-20K, a generative reasoning dataset derived from nuScenes, and employ a three-stage training strategy that includes pretraining, supervised fine-tuning, and reinforcement learning. Extensive experiments demonstrate that VLA-World consistently surpasses state-of-the-art VLA and world-model baselines on both planning and future-generation benchmarks. Project page: https://vlaworld.github.io