LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
作者: Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi
分类: cs.CV, cs.RO
发布日期: 2025-08-05 (更新: 2025-12-02)
备注: AAAI 2026 Oral Presentation; 38 pages, 18 figures, 12 tables; Project Page at https://lidarcrafter.github.io
💡 一句话要点
提出LiDARCrafter以解决动态4D世界建模问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: LiDAR 动态建模 生成式模型 自动驾驶 场景图 时间一致性 数据增强
📋 核心要点
- 现有方法主要集中在视频或占用网格,未能充分利用LiDAR的特性,导致动态4D世界建模面临可控性和时间一致性等挑战。
- LiDARCrafter通过解析自然语言输入为自我中心场景图,利用三分支扩散网络生成物体结构和运动轨迹,解决了动态建模的复杂性。
- 在nuScenes数据集上的实验表明,LiDARCrafter在保真度、可控性和时间一致性方面超越了现有方法,展现出显著的性能提升。
📝 摘要(中文)
生成式世界模型已成为自动驾驶的重要数据引擎,但大多数现有研究集中于视频或占用网格,忽视了LiDAR的独特特性。为此,本文提出了LiDARCrafter,一个统一的4D LiDAR生成与编辑框架。该框架通过自然语言输入解析指令,生成物体结构、运动轨迹和几何形状,支持多样化的场景编辑。此外,采用自回归模块生成时间一致的4D LiDAR序列。通过在nuScenes数据集上的实验,LiDARCrafter在保真度、可控性和时间一致性方面达到了最先进的性能,推动了数据增强和仿真领域的发展。
🔬 方法详解
问题定义:本文旨在解决动态4D世界建模中的可控性、时间一致性和评估标准化等问题。现有方法多集中于视频或占用网格,未能充分利用LiDAR的独特特性,导致生成模型的局限性。
核心思路:LiDARCrafter通过解析自然语言输入,构建自我中心的场景图,利用三分支扩散网络生成物体结构、运动轨迹和几何形状,从而实现动态4D世界的生成与编辑。这样的设计使得模型能够灵活应对多样化的场景需求。
技术框架:LiDARCrafter的整体架构包括三个主要模块:自然语言解析模块、三分支扩散网络和自回归模块。自然语言解析模块将输入指令转化为场景图,扩散网络负责生成物体和运动轨迹,自回归模块则确保生成序列的时间一致性。
关键创新:最重要的创新在于将自然语言输入与LiDAR生成相结合,构建了一个统一的框架,能够实现高保真度和高可控性的动态4D建模。这一方法在生成质量和编辑灵活性上显著优于现有技术。
关键设计:在网络结构上,采用了三分支扩散网络以处理不同的生成任务,并设计了专门的损失函数以优化生成结果的保真度和一致性。此外,关键参数设置经过精细调优,以确保模型的稳定性和性能。
📊 实验亮点
在nuScenes数据集上的实验结果显示,LiDARCrafter在保真度、可控性和时间一致性方面均达到了最先进的水平,具体性能提升幅度超过了现有基线方法,展现出优越的生成能力和应用前景。
🎯 应用场景
LiDARCrafter的研究成果在自动驾驶、虚拟现实和城市规划等领域具有广泛的应用潜力。通过生成高质量的动态4D场景,能够为自动驾驶系统提供更为真实的训练数据,提升其安全性和可靠性。此外,该技术还可用于创建沉浸式的虚拟环境,推动相关行业的发展。
📄 摘要(原文)
Generative world models have become essential data engines for autonomous driving, yet most existing efforts focus on videos or occupancy grids, overlooking the unique LiDAR properties. Extending LiDAR generation to dynamic 4D world modeling presents challenges in controllability, temporal coherence, and evaluation standardization. To this end, we present LiDARCrafter, a unified framework for 4D LiDAR generation and editing. Given free-form natural language inputs, we parse instructions into ego-centric scene graphs, which condition a tri-branch diffusion network to generate object structures, motion trajectories, and geometry. These structured conditions enable diverse and fine-grained scene editing. Additionally, an autoregressive module generates temporally coherent 4D LiDAR sequences with smooth transitions. To support standardized evaluation, we establish a comprehensive benchmark with diverse metrics spanning scene-, object-, and sequence-level aspects. Experiments on the nuScenes dataset using this benchmark demonstrate that LiDARCrafter achieves state-of-the-art performance in fidelity, controllability, and temporal consistency across all levels, paving the way for data augmentation and simulation. The code and benchmark are released to the community.