OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving

作者: Tao Tang, Enhui Ma, xia zhou, Letian Wang, Tianyi Yan, Xueyang Zhang, Kun Zhan, Peng Jia, XianPeng Lang, Jia-Wang Bian, Kaicheng Yu, Xiaodan Liang

分类: cs.CV

发布日期: 2025-12-16

备注: ACM MM 2025

💡 一句话要点

OmniGen：提出统一多模态传感器生成框架，用于自动驾驶场景数据增强。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态生成 传感器仿真 鸟瞰图 扩散模型 体渲染 数据增强

📋 核心要点

现有自动驾驶数据采集成本高昂，且难以覆盖所有corner case，单模态生成方法效率低且易造成多模态数据不对齐。
OmniGen利用共享BEV空间统一多模态特征，并提出通用多模态重建方法UAE，通过体渲染联合解码激光雷达和多视角相机数据。
实验结果表明，OmniGen在统一多模态传感器数据生成中表现出色，实现了多模态一致性和灵活的传感器调整。

📝 摘要（中文）

自动驾驶领域的发展很大程度上依赖于大量的真实世界数据。然而，获取多样化和极端场景数据仍然成本高昂且效率低下。生成模型通过合成逼真的传感器数据，为解决这一问题提供了有希望的方案。然而，现有的方法主要集中在单模态生成上，导致多模态传感器数据的不一致和效率低下。为了解决这些挑战，我们提出了OmniGen，它在一个统一的框架中生成对齐的多模态传感器数据。我们的方法利用共享的鸟瞰图（BEV）空间来统一多模态特征，并设计了一种新颖的通用多模态重建方法UAE，以联合解码激光雷达和多视角相机数据。UAE通过体渲染实现多模态传感器解码，从而实现准确而灵活的重建。此外，我们还结合了带有ControlNet分支的Diffusion Transformer（DiT），以实现可控的多模态传感器生成。全面的实验表明，OminiGen在统一的多模态传感器数据生成中实现了理想的性能，具有多模态一致性和灵活的传感器调整能力。

🔬 方法详解

问题定义：现有自动驾驶数据生成方法主要集中于单模态，导致多模态数据之间缺乏一致性，并且生成效率较低。获取足够数量的、具有多样性和覆盖极端场景的数据仍然是一个挑战。因此，需要一种能够高效生成对齐的多模态传感器数据的方法，以支持自动驾驶系统的训练和验证。

核心思路：OmniGen的核心思路是利用共享的鸟瞰图（BEV）空间作为多模态特征的统一表示，从而实现多模态数据之间的对齐。通过设计一种通用的多模态重建方法（UAE），可以联合解码激光雷达和多视角相机数据，实现准确且灵活的多模态传感器数据生成。此外，引入可控的扩散模型，允许用户控制生成过程，从而生成特定场景和条件下的数据。

技术框架：OmniGen的整体框架包括以下几个主要模块：1) 多模态特征编码器：将来自不同传感器（如激光雷达和多视角相机）的数据编码到共享的BEV空间中。2) 通用多模态重建模块（UAE）：利用体渲染技术，从BEV特征中解码出多模态传感器数据。3) 可控的扩散模型（DiT + ControlNet）：用于生成BEV特征，并允许用户通过ControlNet控制生成过程。整个流程首先将多模态数据编码到BEV空间，然后使用扩散模型生成BEV特征，最后通过UAE解码生成多模态传感器数据。

关键创新：OmniGen的关键创新在于：1) 统一的多模态表示：通过共享的BEV空间，实现了多模态特征的对齐和融合。2) 通用多模态重建方法（UAE）：利用体渲染技术，实现了从BEV特征到多模态传感器数据的准确重建，避免了传统方法中对每个模态单独建模的复杂性。3) 可控的扩散模型：允许用户控制生成过程，从而生成特定场景和条件下的数据。

关键设计：UAE模块使用体渲染技术，通过学习一个体密度场来表示场景，然后通过光线投射算法将BEV特征渲染成多模态传感器数据。扩散模型采用Diffusion Transformer (DiT) 架构，并引入ControlNet分支，允许用户通过输入控制信号（如场景布局、目标位置等）来控制生成过程。损失函数包括重建损失（用于保证生成数据的准确性）和对抗损失（用于提高生成数据的真实感）。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了OmniGen在多模态传感器数据生成方面的有效性。实验结果表明，OmniGen能够生成具有多模态一致性和高真实感的传感器数据，并且可以通过ControlNet实现对生成过程的灵活控制。具体的性能数据和对比基线在论文中有详细描述，证明了OmniGen相比于现有方法的优越性。

🎯 应用场景

OmniGen可应用于自动驾驶系统的仿真测试、数据增强和模型训练。通过生成多样化的、具有多模态一致性的传感器数据，可以有效提高自动驾驶系统在各种复杂场景下的鲁棒性和安全性。此外，该方法还可以用于自动驾驶算法的验证和评估，加速自动驾驶技术的研发进程。

📄 摘要（原文）

Autonomous driving has seen remarkable advancements, largely driven by extensive real-world data collection. However, acquiring diverse and corner-case data remains costly and inefficient. Generative models have emerged as a promising solution by synthesizing realistic sensor data. However, existing approaches primarily focus on single-modality generation, leading to inefficiencies and misalignment in multimodal sensor data. To address these challenges, we propose OminiGen, which generates aligned multimodal sensor data in a unified framework. Our approach leverages a shared Bird\u2019s Eye View (BEV) space to unify multimodal features and designs a novel generalizable multimodal reconstruction method, UAE, to jointly decode LiDAR and multi-view camera data. UAE achieves multimodal sensor decoding through volume rendering, enabling accurate and flexible reconstruction. Furthermore, we incorporate a Diffusion Transformer (DiT) with a ControlNet branch to enable controllable multimodal sensor generation. Our comprehensive experiments demonstrate that OminiGen achieves desired performances in unified multimodal sensor data generation with multimodal consistency and flexible sensor adjustments.

OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册