VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

📄 arXiv: 2603.06210v1 📥 PDF

作者: Xiaoyang Yan, Muleilan Pei, Shaojie Shen

分类: cs.CV, cs.RO

发布日期: 2026-03-06


💡 一句话要点

VG3S:利用视觉几何先验的高斯溅射实现语义占据预测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义占据预测 高斯溅射 视觉基础模型 几何先验 自动驾驶

📋 核心要点

  1. 纯视觉的3D语义占据预测依赖的几何线索不足,导致预测精度受限。
  2. VG3S利用视觉基础模型(VFMs)的几何先验,通过高斯溅射实现更精确的占据预测。
  3. 实验表明,VG3S在nuScenes数据集上显著提升了IoU和mIoU,且能泛化到不同的VFMs。

📝 摘要(中文)

3D语义占据预测是自动驾驶中实现全面场景理解的关键感知任务。虽然最近的研究探索了使用3D高斯溅射进行占据建模,从而显著降低了计算开销,但高质量3D高斯体的生成严重依赖于精确的几何线索,而这在纯粹以视觉为中心的范例中往往是不够的。为了弥合这一差距,我们提倡将来自视觉基础模型(VFMs)的强大几何基础能力注入到占据预测中。为此,我们引入了视觉几何基础高斯溅射(VG3S),这是一个新颖的框架,它通过跨视角的3D几何基础来增强基于高斯体的占据预测。具体来说,为了充分利用来自冻结VFM的丰富3D几何先验,我们提出了一种即插即用的分层几何特征适配器,该适配器可以通过特征聚合、特定于任务的对齐和多尺度重构来有效地转换通用VFM tokens。在nuScenes占据基准上的大量实验表明,VG3S在IoU和mIoU方面分别比基线提高了12.6%和7.5%。此外,我们表明VG3S可以无缝地推广到不同的VFM,持续提高占据预测精度,并坚定地强调了整合来自强大的、预训练的几何基础VFM的先验的巨大价值。

🔬 方法详解

问题定义:论文旨在解决纯视觉3D语义占据预测中几何信息不足的问题。现有方法依赖的几何线索不够精确,导致预测精度不高,尤其是在复杂场景下表现不佳。

核心思路:论文的核心思路是将视觉基础模型(VFMs)中蕴含的强大几何先验知识注入到高斯溅射占据预测框架中。通过利用VFM学习到的通用视觉几何知识,弥补纯视觉方法中几何信息不足的缺陷,从而提升占据预测的准确性。

技术框架:VG3S框架主要包含以下几个模块:1) 视觉基础模型(VFM):使用预训练的VFM提取图像特征。2) 分层几何特征适配器:将VFM提取的特征进行聚合、对齐和重构,以适应占据预测任务。3) 高斯溅射模块:利用处理后的特征生成3D高斯体,并进行占据预测。整个流程是从多视角图像输入开始,经过VFM提取特征,再通过特征适配器进行处理,最后利用高斯溅射进行占据预测。

关键创新:论文的关键创新在于提出了一个即插即用的分层几何特征适配器,该适配器能够有效地将通用VFM tokens转换为适用于占据预测任务的特征表示。该适配器通过特征聚合、任务特定对齐和多尺度重构,充分利用了VFM中蕴含的3D几何先验知识。

关键设计:分层几何特征适配器包含多个层级,每一层级都进行特征聚合、任务特定对齐和多尺度重构。特征聚合采用注意力机制,将不同视角的特征进行融合。任务特定对齐通过可学习的变换矩阵,将通用特征空间对齐到占据预测任务的特征空间。多尺度重构则通过不同尺度的卷积操作,提取不同尺度的特征信息。损失函数方面,采用了交叉熵损失函数来优化占据预测结果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

VG3S在nuScenes占据预测基准测试中取得了显著的性能提升,IoU指标提升了12.6%,mIoU指标提升了7.5%。实验结果表明,VG3S能够有效地利用视觉基础模型中的几何先验知识,从而提高占据预测的准确性。此外,VG3S具有良好的泛化能力,可以应用于不同的视觉基础模型,并持续提升占据预测的性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维场景重建等领域。通过提高场景理解的准确性,可以提升自动驾驶系统的安全性,增强机器人在复杂环境中的适应性,并为三维场景重建提供更精确的几何信息。

📄 摘要(原文)

3D semantic occupancy prediction has become a crucial perception task for comprehensive scene understanding in autonomous driving. While recent advances have explored 3D Gaussian splatting for occupancy modeling to substantially reduce computational overhead, the generation of high-quality 3D Gaussians relies heavily on accurate geometric cues, which are often insufficient in purely vision-centric paradigms. To bridge this gap, we advocate for injecting the strong geometric grounding capability from Vision Foundation Models (VFMs) into occupancy prediction. In this regard, we introduce Visual Geometry Grounded Gaussian Splatting (VG3S), a novel framework that empowers Gaussian-based occupancy prediction with cross-view 3D geometric grounding. Specifically, to fully exploit the rich 3D geometric priors from a frozen VFM, we propose a plug-and-play hierarchical geometric feature adapter, which can effectively transform generic VFM tokens via feature aggregation, task-specific alignment, and multi-scale restructuring. Extensive experiments on the nuScenes occupancy benchmark demonstrate that VG3S achieves remarkable improvements of 12.6% in IoU and 7.5% in mIoU over the baseline. Furthermore, we show that VG3S generalizes seamlessly across diverse VFMs, consistently enhancing occupancy prediction accuracy and firmly underscoring the immense value of integrating priors derived from powerful, pre-trained geometry-grounded VFMs.