OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
作者: Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu
分类: cs.CV
发布日期: 2023-12-14 (更新: 2024-08-21)
备注: Code: https://github.com/LinShan-Bin/OccNeRF
💡 一句话要点
OccNeRF:提出一种无需激光雷达的3D场景占据预测方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D占据预测 神经渲染 自监督学习 光度一致性 自动驾驶
📋 核心要点
- 现有占据预测方法依赖激光雷达数据生成真值,限制了其在纯视觉自动驾驶系统中的应用。
- OccNeRF通过神经渲染将占据场转换为深度图,利用多帧光度一致性实现无3D监督的占据网络训练。
- 该方法在nuScenes和SemanticKITTI数据集上验证了有效性,并在自监督深度估计和3D占据预测任务上取得了良好结果。
📝 摘要(中文)
占据预测旨在重建周围环境的3D结构,为自动驾驶的规划和导航提供详细信息。然而,现有方法大多严重依赖激光雷达点云来生成占据真值,这在纯视觉系统中是不可用的。本文提出了一种名为OccNeRF的方法,用于在没有3D监督的情况下训练占据网络。与之前考虑有界场景的工作不同,我们参数化了重建的占据场,并重新组织了采样策略,使其与相机无限的感知范围对齐。采用神经渲染将占据场转换为多相机深度图,并使用多帧光度一致性进行监督。此外,对于语义占据预测,我们设计了几种策略来优化提示,并过滤预训练的开放词汇2D分割模型的输出。在nuScenes和SemanticKITTI数据集上进行的自监督深度估计和3D占据预测的大量实验证明了我们方法的有效性。
🔬 方法详解
问题定义:现有3D占据预测方法严重依赖激光雷达点云数据作为训练真值,这限制了它们在纯视觉自动驾驶系统中的应用。如何在没有激光雷达数据的情况下,仅使用相机图像进行3D占据预测是一个关键挑战。现有方法通常假设场景是有界的,无法处理相机无限的感知范围。
核心思路:OccNeRF的核心思路是利用神经渲染技术,将3D占据场转换为多视角的深度图,然后通过多帧图像的光度一致性作为监督信号,从而实现无激光雷达监督的3D占据预测。通过参数化占据场并重新设计采样策略,使其与相机无限的感知范围对齐。
技术框架:OccNeRF的整体框架包括以下几个主要模块:1) 占据场表示:使用神经隐式函数表示3D占据场。2) 神经渲染:将占据场渲染成多视角的深度图。3) 光度一致性损失:利用多帧图像的光度一致性作为监督信号,优化占据场。4) 语义信息融合:对于语义占据预测,使用预训练的2D分割模型提取语义信息,并设计策略优化提示和过滤输出。
关键创新:OccNeRF的关键创新在于:1) 提出了一种无需激光雷达监督的3D占据预测方法,解决了纯视觉系统中的3D感知问题。2) 通过参数化占据场和重新设计采样策略,使其能够处理相机无限的感知范围。3) 利用神经渲染和光度一致性损失,实现了自监督的3D占据预测。
关键设计:在占据场表示方面,使用了MLP网络来预测每个3D点的占据概率。在神经渲染方面,使用了可微分的渲染器将占据场渲染成深度图。在光度一致性损失方面,使用了L1损失和SSIM损失的组合。对于语义占据预测,设计了prompt polishing和output filtering策略,以提高语义分割的准确性。
📊 实验亮点
OccNeRF在nuScenes和SemanticKITTI数据集上进行了实验,结果表明该方法在自监督深度估计和3D占据预测任务上均取得了良好的性能。与现有方法相比,OccNeRF在没有激光雷达监督的情况下,能够生成更准确的3D占据地图,并且能够处理更大范围的场景。
🎯 应用场景
OccNeRF在自动驾驶领域具有广泛的应用前景,尤其是在低成本、纯视觉的自动驾驶方案中。它可以用于构建高精度的3D环境地图,为路径规划、行为决策等提供关键信息。此外,该方法还可以应用于机器人导航、虚拟现实等领域,提升3D场景的感知能力。
📄 摘要(原文)
Occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for training occupancy networks without 3D supervision. Different from previous works which consider a bounded scene, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy to align with the cameras' infinite perceptive range. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and 3D occupancy prediction tasks on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our method.