Semantic Causality-Aware Vision-Based 3D Occupancy Prediction
作者: Dubing Chen, Huan Zheng, Yucheng Zhou, Xianfei Li, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen
分类: cs.CV, cs.AI
发布日期: 2025-09-10
备注: ICCV 2025
💡 一句话要点
提出语义因果感知的3D Occupancy预测方法,解决2D到3D转换中的误差累积问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D Occupancy预测 语义分割 因果损失 端到端学习 相机鲁棒性
📋 核心要点
- 现有基于视觉的3D语义Occupancy预测方法依赖模块化pipeline,易产生误差累积。
- 设计因果损失,实现端到端监督,统一2D到3D转换pipeline的学习过程。
- 在Occ3D基准测试中,该方法达到SOTA性能,对相机扰动表现出更强的鲁棒性。
📝 摘要(中文)
本文提出了一种基于视觉的3D语义Occupancy预测方法,旨在解决现有方法中模块化pipeline导致的误差累积问题。核心思想是设计一种新颖的因果损失,实现对2D到3D转换pipeline的端到端监督。该损失基于2D到3D语义因果关系,调节从3D体素表示到2D特征的梯度流,使整个pipeline可微,统一学习过程,并使原本不可训练的组件变为可学习。基于此,提出了语义因果感知的2D到3D转换,包含通道分组Lifting、可学习相机偏移和归一化卷积三个组件。实验表明,该方法在Occ3D基准上取得了state-of-the-art的性能,对相机扰动具有显著的鲁棒性,并提高了2D到3D的语义一致性。
🔬 方法详解
问题定义:现有基于视觉的3D语义Occupancy预测方法通常采用模块化的pipeline,例如先进行2D图像的语义分割,然后将2D信息投影到3D空间进行体素重建。这些模块通常独立优化,或者使用预先配置的输入,导致误差在pipeline中逐级累积,最终影响3D Occupancy预测的准确性。此外,2D到3D的转换过程中的一些组件,例如相机参数,通常被认为是固定的,无法通过学习进行优化。
核心思路:本文的核心思路是利用语义因果关系,设计一种因果损失函数,从而实现对整个2D到3D转换pipeline的端到端监督。通过调节从3D体素表示到2D特征的梯度流,使得整个pipeline可微,从而可以联合优化各个模块,减少误差累积。此外,通过引入可学习的相机偏移,可以提高模型对相机参数扰动的鲁棒性。
技术框架:该方法主要包含三个核心组件:通道分组Lifting(Channel-Grouped Lifting)、可学习相机偏移(Learnable Camera Offsets)和归一化卷积(Normalized Convolution)。首先,使用通道分组Lifting将2D特征映射到3D空间,实现自适应的语义映射。然后,通过可学习相机偏移来增强模型对相机参数扰动的鲁棒性。最后,使用归一化卷积来有效地传播3D特征。整个pipeline通过提出的因果损失函数进行端到端训练。
关键创新:最重要的技术创新点在于提出的语义因果感知的损失函数。该损失函数基于2D到3D的语义因果关系,通过调节梯度流,使得整个pipeline可微,从而可以联合优化各个模块,减少误差累积。与现有方法中独立优化各个模块的方式不同,该方法实现了真正的端到端学习。
关键设计:因果损失函数的设计是关键。它通过约束3D体素的语义信息与2D特征的语义信息之间的关系,来调节梯度流。具体来说,该损失函数鼓励3D体素的语义信息能够有效地反向传播到2D特征,从而使得2D特征能够更好地指导3D体素的重建。此外,可学习相机偏移的设计也至关重要,它通过学习相机参数的偏移量,来提高模型对相机参数扰动的鲁棒性。通道分组Lifting和归一化卷积则分别用于实现自适应的语义映射和有效的特征传播。
📊 实验亮点
实验结果表明,该方法在Occ3D基准测试中取得了state-of-the-art的性能。与现有方法相比,该方法在3D Occupancy预测的准确率和召回率方面均有显著提升。特别是在相机参数存在扰动的情况下,该方法的鲁棒性明显优于现有方法。例如,在某个实验中,该方法在相机参数扰动下的3D IoU指标比现有最佳方法提高了5%以上。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、场景理解等领域。通过提高3D Occupancy预测的准确性和鲁棒性,可以帮助自动驾驶系统更好地感知周围环境,从而做出更安全、更可靠的决策。在机器人导航领域,该方法可以帮助机器人更好地理解周围环境,从而实现更智能的导航。此外,该方法还可以应用于虚拟现实、增强现实等领域,提高场景理解的准确性和真实感。
📄 摘要(原文)
Vision-based 3D semantic occupancy prediction is a critical task in 3D vision that integrates volumetric 3D reconstruction with semantic understanding. Existing methods, however, often rely on modular pipelines. These modules are typically optimized independently or use pre-configured inputs, leading to cascading errors. In this paper, we address this limitation by designing a novel causal loss that enables holistic, end-to-end supervision of the modular 2D-to-3D transformation pipeline. Grounded in the principle of 2D-to-3D semantic causality, this loss regulates the gradient flow from 3D voxel representations back to the 2D features. Consequently, it renders the entire pipeline differentiable, unifying the learning process and making previously non-trainable components fully learnable. Building on this principle, we propose the Semantic Causality-Aware 2D-to-3D Transformation, which comprises three components guided by our causal loss: Channel-Grouped Lifting for adaptive semantic mapping, Learnable Camera Offsets for enhanced robustness against camera perturbations, and Normalized Convolution for effective feature propagation. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the Occ3D benchmark, demonstrating significant robustness to camera perturbations and improved 2D-to-3D semantic consistency.