DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning

📄 arXiv: 2604.01765v1 📥 PDF

作者: Yang Zhou, Xiaofeng Wang, Hao Shao, Letian Wang, Guosheng Zhao, Jiangnan Shao, Jiagang Zhu, Tingdong Yu, Zheng Zhu, Guan Huang, Steven L. Waslander

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-02

备注: 11 pages, 4 figures; Project Website: https://drivedreamer-policy.github.io/


💡 一句话要点

提出DriveDreamer-Policy,一种几何感知的世界-动作模型,用于统一生成与规划。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 动作模型 深度生成 未来视频预测 运动规划 自动驾驶 几何感知 具身智能

📋 核心要点

  1. 现有世界-动作模型(WAM)在几何建模方面存在不足,限制了其在物理世界中运行的能力。
  2. DriveDreamer-Policy通过整合深度生成、未来视频生成和运动规划,学习几何感知的世界表征,指导未来预测和规划。
  3. 实验表明,DriveDreamer-Policy在Navsim v1和v2上超越现有方法,同时生成更高质量的视频和深度预测。

📝 摘要(中文)

本文提出DriveDreamer-Policy,一种统一的驾驶世界-动作模型,它集成了深度生成、未来视频生成和运动规划于一个模块化架构中。该模型利用大型语言模型处理语言指令、多视角图像和动作,然后通过三个轻量级生成器生成深度、未来视频和动作。通过学习几何感知的世界表征,并使用它来指导未来预测和规划,该模型产生更连贯的想象未来和更明智的驾驶动作,同时保持模块化和可控的延迟。在Navsim v1和v2基准测试上的实验表明,DriveDreamer-Policy在闭环规划和世界生成任务上都取得了优异的性能。具体而言,该模型在Navsim v1上达到了89.2 PDMS,在Navsim v2上达到了88.7 EPDMS,优于现有的基于世界模型的方法,同时产生更高质量的未来视频和深度预测。消融研究进一步表明,显式深度学习为视频想象提供了互补的优势,并提高了规划的鲁棒性。

🔬 方法详解

问题定义:现有世界-动作模型(WAM)主要关注2D外观或潜在表征的建模,缺乏对几何信息的有效利用。这限制了它们在需要精确空间推理的具身智能系统中的应用,例如自动驾驶。现有方法难以生成连贯的未来场景,并导致规划动作的次优性。

核心思路:DriveDreamer-Policy的核心思路是显式地学习和利用几何信息(深度)来增强世界模型的表征能力。通过将深度生成、未来视频生成和运动规划集成到一个统一的框架中,模型可以更好地理解和预测环境的变化,从而做出更明智的驾驶决策。这种几何感知的世界表征能够产生更连贯的想象未来,并提高规划的鲁棒性。

技术框架:DriveDreamer-Policy的整体架构包含以下几个主要模块:1) 大型语言模型(LLM):用于处理语言指令、多视角图像和动作输入。2) 深度生成器:用于预测场景的深度信息。3) 未来视频生成器:用于预测未来的视频帧。4) 动作规划器:基于预测的未来场景和深度信息,生成驾驶动作。整个流程是,LLM接收输入,然后深度生成器和未来视频生成器并行工作,最后动作规划器利用生成的信息进行规划。

关键创新:DriveDreamer-Policy的关键创新在于将深度生成显式地融入到世界-动作模型中。与现有方法相比,它不再仅仅依赖于2D外观或潜在表征,而是通过学习几何信息来增强对环境的理解。这种几何感知的建模方式使得模型能够生成更准确、更连贯的未来场景,并做出更合理的驾驶决策。此外,统一的框架设计使得深度生成、视频生成和动作规划能够相互促进,共同提升性能。

关键设计:模型采用模块化的设计,方便扩展和修改。深度生成器和未来视频生成器采用轻量级架构,以保证可控的延迟。损失函数包括深度预测损失、视频预测损失和动作规划损失。具体网络结构细节未在摘要中详细说明,但强调了模块化和轻量级设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveDreamer-Policy在Navsim v1上达到了89.2 PDMS,在Navsim v2上达到了88.7 EPDMS,显著优于现有的基于世界模型的方法。同时,该模型能够生成更高质量的未来视频和深度预测。消融实验表明,显式深度学习能够为视频想象提供互补的优势,并提高规划的鲁棒性。这些结果表明,几何感知的世界-动作模型在自动驾驶任务中具有显著的优势。

🎯 应用场景

DriveDreamer-Policy在自动驾驶领域具有广泛的应用前景。它可以用于提升自动驾驶系统的环境感知能力、预测未来场景变化,并做出更安全、更高效的驾驶决策。此外,该模型还可以应用于虚拟现实、游戏开发等领域,用于生成逼真的虚拟环境和交互体验。未来,该研究可以扩展到其他具身智能任务,例如机器人导航、操作等。

📄 摘要(原文)

Recently, world-action models (WAM) have emerged to bridge vision-language-action (VLA) models and world models, unifying their reasoning and instruction-following capabilities and spatio-temporal world modeling. However, existing WAM approaches often focus on modeling 2D appearance or latent representations, with limited geometric grounding-an essential element for embodied systems operating in the physical world. We present DriveDreamer-Policy, a unified driving world-action model that integrates depth generation, future video generation, and motion planning within a single modular architecture. The model employs a large language model to process language instructions, multi-view images, and actions, followed by three lightweight generators that produce depth, future video, and actions. By learning a geometry-aware world representation and using it to guide both future prediction and planning within a unified framework, the proposed model produces more coherent imagined futures and more informed driving actions, while maintaining modularity and controllable latency. Experiments on the Navsim v1 and v2 benchmarks demonstrate that DriveDreamer-Policy achieves strong performance on both closed-loop planning and world generation tasks. In particular, our model reaches 89.2 PDMS on Navsim v1 and 88.7 EPDMS on Navsim v2, outperforming existing world-model-based approaches while producing higher-quality future video and depth predictions. Ablation studies further show that explicit depth learning provides complementary benefits to video imagination and improves planning robustness.