DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving

作者: Yiyao Zhu, Ying Xue, Haiming Zhang, Guangfeng Jiang, Wending Zhou, Xu Yan, Jiantao Gao, Yingjie Cai, Bingbing Liu, Zhen Li, Shaojie Shen

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted by CVPR 2026

💡 一句话要点

DLWM：双重潜在世界模型实现自动驾驶中以高斯为中心的整体预训练

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 高斯表示 世界模型 占用预测 运动规划

📋 核心要点

现有方法难以有效利用多视角信息进行场景理解，且缺乏对时间信息的建模能力。
DLWM通过双重潜在世界模型，分别学习高斯流引导的占用预测和自车规划引导的运动规划。
实验表明，DLWM在3D占用感知、4D占用预测和运动规划任务上均取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种名为DLWM的新范式，它采用双重潜在世界模型，专门用于在自动驾驶中实现整体的、以高斯为中心的预训练，该方法分为两个阶段。第一阶段，DLWM通过自监督重建多视角语义和深度图像，从查询中预测3D高斯分布。在配备了精细的上下文特征后，第二阶段分别训练两个潜在世界模型用于时间特征学习，包括用于下游占用感知和预测任务的、以高斯流引导的潜在预测，以及用于运动规划的、以自车规划引导的潜在预测。在SurroundOcc和nuScenes基准测试中的大量实验表明，DLWM在以高斯为中心的3D占用感知、4D占用预测和运动规划任务中表现出显著的性能提升。

🔬 方法详解

问题定义：现有基于视觉的自动驾驶方法，尤其是在占用预测和运动规划方面，面临着如何有效利用多视角信息进行场景理解，以及如何对时间信息进行建模的挑战。传统的BEV或稀疏查询方法无法充分利用场景中的上下文信息，而DLWM旨在解决这些问题，提升自动驾驶系统的感知和决策能力。

核心思路：DLWM的核心思路是利用双重潜在世界模型，分别学习用于下游占用预测和运动规划任务的潜在表征。一个世界模型专注于学习高斯流引导的潜在预测，从而提升对未来环境的预测能力；另一个世界模型则专注于学习自车规划引导的潜在预测，从而提升运动规划的合理性和安全性。通过这种方式，DLWM能够更全面地理解场景，并做出更明智的决策。

技术框架：DLWM的整体框架分为两个阶段。第一阶段是高斯预测阶段，该阶段通过自监督学习，利用多视角语义和深度图像重建3D高斯分布，从而获得场景的精细化表示。第二阶段是潜在世界模型学习阶段，该阶段分别训练两个潜在世界模型，一个用于占用预测，另一个用于运动规划。这两个世界模型共享第一阶段学习到的高斯特征，并在此基础上进行时间特征的学习和预测。

关键创新：DLWM的关键创新在于其双重潜在世界模型的设计，以及高斯流和自车规划引导的潜在预测机制。通过将场景表示为3D高斯分布，并利用双重潜在世界模型分别学习占用预测和运动规划的潜在表征，DLWM能够更有效地利用场景中的上下文信息和时间信息，从而提升自动驾驶系统的性能。

关键设计：在第一阶段，DLWM使用自监督损失函数来训练高斯预测模块，该损失函数包括语义重建损失和深度重建损失。在第二阶段，DLWM使用高斯流损失和自车规划损失来训练两个潜在世界模型。高斯流损失用于约束占用预测模型的输出，使其能够准确预测未来的环境状态；自车规划损失用于约束运动规划模型的输出，使其能够生成安全合理的行驶轨迹。具体的网络结构和参数设置在论文中有详细描述，但此处未知。

🖼️ 关键图片

📊 实验亮点

DLWM在SurroundOcc和nuScenes基准测试中取得了显著的性能提升。具体而言，DLWM在3D占用感知、4D占用预测和运动规划任务上均优于现有方法。虽然具体的性能数据未知，但摘要中明确指出DLWM表现出“显著的性能提升”，表明其在相关任务上具有很强的竞争力。

🎯 应用场景

DLWM的研究成果可广泛应用于自动驾驶领域的感知和决策系统，例如，可以提升自动驾驶车辆在复杂交通环境下的环境感知能力，提高其对未来交通状况的预测精度，并优化其运动规划策略，从而提高自动驾驶系统的安全性、可靠性和效率。此外，该方法还可以应用于机器人导航、智能交通管理等领域。

📄 摘要（原文）

Vision-based autonomous driving has gained much attention due to its low costs and excellent performance. Compared with dense BEV (Bird's Eye View) or sparse query models, Gaussian-centric method is a comprehensive yet sparse representation by describing scene with 3D semantic Gaussians. In this paper, we introduce DLWM, a novel paradigm with Dual Latent World Models specifically designed to enable holistic gaussian-centric pre-training in autonomous driving using two stages. In the first stage, DLWM predicts 3D Gaussians from queries by self-supervised reconstructing multi-view semantic and depth images. Equipped with fine-grained contextual features, in the second stage, two latent world models are trained separately for temporal feature learning, including Gaussian-flow-guided latent prediction for downstream occupancy perception and forecasting tasks, and ego-planning-guided latent prediction for motion planning. Extensive experiments in SurroundOcc and nuScenes benchmarks demonstrate that DLWM shows significant performance gains across Gaussian-centric 3D occupancy perception, 4D occupancy forecasting and motion planning tasks.

DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理