FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models
作者: Andrew Caunes, Thierry Chateau, Vincent Fremont
分类: cs.CV
发布日期: 2026-03-06
备注: 14 pages
💡 一句话要点
FreeOcc:利用预训练模型实现免训练的全景占据预测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全景占据预测 免训练学习 基础模型 3D场景理解 多视角几何 自动驾驶 弱监督学习
📋 核心要点
- 现有基于相机的全景占据预测方法依赖昂贵的3D标注或特定领域训练,泛化性受限。
- FreeOcc利用预训练分割和重建模型,无需训练即可从多视角图像中恢复语义和几何信息。
- 实验表明,FreeOcc在免训练和弱监督设置下均取得了有竞争力的结果,并设立了新的基线。
📝 摘要(中文)
针对道路场景分析的语义和全景占据预测,旨在提供自我车辆周围环境的密集3D表示。目前仅使用摄像头的方法通常依赖于昂贵的密集3D监督,或者需要在目标领域的数据上训练模型,限制了在未见环境中的部署。我们提出了FreeOcc,一个免训练的流程,利用预训练的基础模型从多视角图像中恢复语义和几何信息。FreeOcc使用可提示的基础分割模型和prompt-to-taxonomy规则提取每个视角的panoptic priors,并使用重建基础模型重建度量3D点。深度和置信度感知的过滤将可靠的标签提升到3D空间,这些标签随时间融合并使用确定性细化堆栈进行体素化。对于全景占据,通过拟合和合并鲁棒的当前视角3D框候选来恢复实例,从而实现实例感知的占据,而无需任何学习的3D模型。在Occ3D-nuScenes上,FreeOcc实现了16.9 mIoU和16.5 RayIoU的免训练效果,与最先进的弱监督方法相当。当用作训练下游模型的伪标签生成流程时,它实现了21.1 RayIoU,超过了之前的最先进的弱监督基线。此外,FreeOcc为免训练和弱监督全景占据预测设置了新的基线,分别实现了3.1 RayPQ和3.9 RayPQ。这些结果突出了基础模型驱动的感知是实现免训练3D场景理解的一种实用途径。
🔬 方法详解
问题定义:论文旨在解决道路场景下全景占据预测问题,即预测场景中每个体素的语义标签和实例ID。现有方法主要痛点在于需要大量的3D标注数据进行训练,或者在新的场景中需要重新训练模型,成本高昂且泛化能力差。
核心思路:论文的核心思路是利用预训练的基础模型,例如图像分割模型和3D重建模型,来提取图像中的语义和几何信息,并将其融合到3D空间中,从而实现免训练的全景占据预测。这样可以避免对大量标注数据的依赖,并提高模型的泛化能力。
技术框架:FreeOcc的整体框架包含以下几个主要模块:1) 使用可提示的基础分割模型提取每个视角的panoptic priors;2) 使用重建基础模型重建度量3D点;3) 使用深度和置信度感知的过滤方法将可靠的标签提升到3D空间;4) 将不同视角的3D信息进行融合,并使用确定性细化堆栈进行体素化;5) 通过拟合和合并鲁棒的当前视角3D框候选来恢复实例。
关键创新:最重要的技术创新点在于提出了一个完全免训练的全景占据预测流程,该流程不需要任何3D标注数据或领域特定的训练。与现有方法相比,FreeOcc能够利用预训练的基础模型来提取图像中的语义和几何信息,从而实现更好的泛化能力。
关键设计:FreeOcc的关键设计包括:1) 使用prompt-to-taxonomy规则将分割模型的输出映射到预定义的类别;2) 使用深度和置信度信息来过滤掉不可靠的标签;3) 使用时间融合来提高3D信息的准确性;4) 使用确定性细化堆栈来提高体素化结果的质量;5) 使用3D框拟合来恢复实例信息。
🖼️ 关键图片
📊 实验亮点
FreeOcc在Occ3D-nuScenes数据集上取得了显著成果。在免训练设置下,实现了16.9 mIoU和16.5 RayIoU,与最先进的弱监督方法相当。作为伪标签生成器,实现了21.1 RayIoU,超越了之前的弱监督基线。同时,为免训练和弱监督全景占据预测设立了新的基线,分别达到3.1 RayPQ和3.9 RayPQ。
🎯 应用场景
FreeOcc的潜在应用领域包括自动驾驶、机器人导航、增强现实等。该研究的实际价值在于降低了3D场景理解的成本,提高了模型的泛化能力。未来,FreeOcc可以作为一种通用的3D场景理解方法,应用于各种不同的场景中。
📄 摘要(原文)
Semantic and panoptic occupancy prediction for road scene analysis provides a dense 3D representation of the ego vehicle's surroundings. Current camera-only approaches typically rely on costly dense 3D supervision or require training models on data from the target domain, limiting deployment in unseen environments. We propose FreeOcc, a training-free pipeline that leverages pretrained foundation models to recover both semantics and geometry from multi-view images. FreeOcc extracts per-view panoptic priors with a promptable foundation segmentation model and prompt-to-taxonomy rules, and reconstructs metric 3D points with a reconstruction foundation model. Depth- and confidence- aware filtering lifts reliable labels into 3D, which are fused over time and voxelized with a deterministic refinement stack. For panoptic occupancy, instances are recovered by fitting and merging robust current-view 3D box candidates, enabling instance-aware occupancy without any learned 3D model. On Occ3D-nuScenes, FreeOcc achieves 16.9 mIoU and 16.5 RayIoU train-free, on par with state-of-the-art weakly supervised methods. When employed as a pseudo-label generation pipeline for training downstream models, it achieves 21.1 RayIoU, surpassing the previous state-of-the-art weakly supervised baseline. Furthermore, FreeOcc sets new baselines for both train-free and weakly supervised panoptic occupancy prediction, achieving 3.1 RayPQ and 3.9 RayPQ, respectively. These results highlight foundation-model-driven perception as a practical route to training-free 3D scene understanding.