DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving

📄 arXiv: 2604.00969v1 📥 PDF

作者: Yiyao Zhu, Ying Xue, Haiming Zhang, Guangfeng Jiang, Wending Zhou, Xu Yan, Jiantao Gao, Yingjie Cai, Bingbing Liu, Zhen Li, Shaojie Shen

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted by CVPR 2026


💡 一句话要点

DLWM:双重潜在世界模型实现自动驾驶中以高斯为中心的整体预训练

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 高斯表示 世界模型 占用预测 运动规划

📋 核心要点

  1. 现有方法难以有效利用多视角信息进行场景理解,且缺乏对时间信息的建模能力。
  2. DLWM通过双重潜在世界模型,分别学习高斯流引导的占用预测和自车规划引导的运动规划。
  3. 实验表明,DLWM在3D占用感知、4D占用预测和运动规划任务上均取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种名为DLWM的新范式,它采用双重潜在世界模型,专门用于在自动驾驶中实现整体的、以高斯为中心的预训练,该方法分为两个阶段。第一阶段,DLWM通过自监督重建多视角语义和深度图像,从查询中预测3D高斯分布。在配备了精细的上下文特征后,第二阶段分别训练两个潜在世界模型用于时间特征学习,包括用于下游占用感知和预测任务的、以高斯流引导的潜在预测,以及用于运动规划的、以自车规划引导的潜在预测。在SurroundOcc和nuScenes基准测试中的大量实验表明,DLWM在以高斯为中心的3D占用感知、4D占用预测和运动规划任务中表现出显著的性能提升。

🔬 方法详解

问题定义:现有基于视觉的自动驾驶方法,尤其是在占用预测和运动规划方面,面临着如何有效利用多视角信息进行场景理解,以及如何对时间信息进行建模的挑战。传统的BEV或稀疏查询方法无法充分利用场景中的上下文信息,而DLWM旨在解决这些问题,提升自动驾驶系统的感知和决策能力。

核心思路:DLWM的核心思路是利用双重潜在世界模型,分别学习用于下游占用预测和运动规划任务的潜在表征。一个世界模型专注于学习高斯流引导的潜在预测,从而提升对未来环境的预测能力;另一个世界模型则专注于学习自车规划引导的潜在预测,从而提升运动规划的合理性和安全性。通过这种方式,DLWM能够更全面地理解场景,并做出更明智的决策。

技术框架:DLWM的整体框架分为两个阶段。第一阶段是高斯预测阶段,该阶段通过自监督学习,利用多视角语义和深度图像重建3D高斯分布,从而获得场景的精细化表示。第二阶段是潜在世界模型学习阶段,该阶段分别训练两个潜在世界模型,一个用于占用预测,另一个用于运动规划。这两个世界模型共享第一阶段学习到的高斯特征,并在此基础上进行时间特征的学习和预测。

关键创新:DLWM的关键创新在于其双重潜在世界模型的设计,以及高斯流和自车规划引导的潜在预测机制。通过将场景表示为3D高斯分布,并利用双重潜在世界模型分别学习占用预测和运动规划的潜在表征,DLWM能够更有效地利用场景中的上下文信息和时间信息,从而提升自动驾驶系统的性能。

关键设计:在第一阶段,DLWM使用自监督损失函数来训练高斯预测模块,该损失函数包括语义重建损失和深度重建损失。在第二阶段,DLWM使用高斯流损失和自车规划损失来训练两个潜在世界模型。高斯流损失用于约束占用预测模型的输出,使其能够准确预测未来的环境状态;自车规划损失用于约束运动规划模型的输出,使其能够生成安全合理的行驶轨迹。具体的网络结构和参数设置在论文中有详细描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DLWM在SurroundOcc和nuScenes基准测试中取得了显著的性能提升。具体而言,DLWM在3D占用感知、4D占用预测和运动规划任务上均优于现有方法。虽然具体的性能数据未知,但摘要中明确指出DLWM表现出“显著的性能提升”,表明其在相关任务上具有很强的竞争力。

🎯 应用场景

DLWM的研究成果可广泛应用于自动驾驶领域的感知和决策系统,例如,可以提升自动驾驶车辆在复杂交通环境下的环境感知能力,提高其对未来交通状况的预测精度,并优化其运动规划策略,从而提高自动驾驶系统的安全性、可靠性和效率。此外,该方法还可以应用于机器人导航、智能交通管理等领域。

📄 摘要(原文)

Vision-based autonomous driving has gained much attention due to its low costs and excellent performance. Compared with dense BEV (Bird's Eye View) or sparse query models, Gaussian-centric method is a comprehensive yet sparse representation by describing scene with 3D semantic Gaussians. In this paper, we introduce DLWM, a novel paradigm with Dual Latent World Models specifically designed to enable holistic gaussian-centric pre-training in autonomous driving using two stages. In the first stage, DLWM predicts 3D Gaussians from queries by self-supervised reconstructing multi-view semantic and depth images. Equipped with fine-grained contextual features, in the second stage, two latent world models are trained separately for temporal feature learning, including Gaussian-flow-guided latent prediction for downstream occupancy perception and forecasting tasks, and ego-planning-guided latent prediction for motion planning. Extensive experiments in SurroundOcc and nuScenes benchmarks demonstrate that DLWM shows significant performance gains across Gaussian-centric 3D occupancy perception, 4D occupancy forecasting and motion planning tasks.