TopoMaskV3: 3D Mask Head with Dense Offset and Height Predictions for Road Topology Understanding

📄 arXiv: 2603.01558v1 📥 PDF

作者: Muhammet Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

TopoMaskV3通过密集偏移和高度预测实现道路拓扑理解的3D掩码头部,显著提升性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 道路拓扑理解 3D掩码预测 密集偏移场 高度图预测 地理分割 数据泄露 自动驾驶 LiDAR融合

📋 核心要点

  1. 现有道路拓扑理解方法受限于2D预测,存在离散化伪影,泛化能力不足。
  2. TopoMaskV3提出密集偏移场和高度图预测,实现亚网格校正和直接3D估计,提升精度。
  3. 引入地理分割和长距离基准,解决数据泄露问题,TopoMaskV3在新的基准上取得SOTA。

📝 摘要(中文)

TopoMaskV2等基于掩码的道路拓扑理解方法,通过生成栅格化的中间表示来生成中心线,为基于查询的方法提供了一种互补的替代方案。然而,先前的工作仅限于2D预测,并且受到严重离散化伪影的影响,需要与参数头部融合。我们引入了TopoMaskV3,通过两个新的密集预测头部,将此流程推进为强大的独立3D预测器:用于在现有BEV分辨率内进行亚网格离散化校正的密集偏移场,以及用于直接3D估计的密集高度图。除了架构之外,我们首次通过引入(1)地理上不同的分割来防止记忆并确保公平泛化,以及(2)长距离(+/-100 m)基准,从而解决了道路拓扑评估中的地理数据泄露问题。TopoMaskV3在这个地理上不相交的基准上实现了最先进的28.5 OLS,超过了所有先前的方法。我们的分析表明,掩码表示比Bezier更不容易出现地理过拟合,而LiDAR融合在长距离上最有益,并且在重叠的原始分割上表现出更大的相对增益,这表明重叠诱导的记忆效应。

🔬 方法详解

问题定义:论文旨在解决道路拓扑理解中,现有方法(特别是基于掩码的方法)在3D空间中表达能力不足,以及容易受到地理数据泄露影响的问题。现有方法通常依赖于2D预测,导致离散化误差,并且在评估时未能充分考虑地理位置的差异,使得模型容易记忆特定区域的特征,泛化能力受限。

核心思路:TopoMaskV3的核心思路是通过引入密集偏移场和高度图预测,直接在3D空间中进行道路拓扑的建模。密集偏移场用于校正BEV(Bird's-Eye-View)表示中的离散化误差,而高度图则用于直接预测道路的高度信息,从而实现更精确的3D道路拓扑重建。同时,通过引入地理上不相交的分割,以及长距离评估基准,来解决数据泄露问题,确保模型具有更好的泛化能力。

技术框架:TopoMaskV3的整体框架基于掩码预测范式,主要包含以下几个模块:1) 特征提取模块:用于从输入数据(例如LiDAR点云或图像)中提取特征。2) BEV表示模块:将提取的特征转换为BEV表示。3) 掩码预测模块:预测道路的掩码。4) 密集偏移场预测模块:预测每个像素的偏移量,用于校正离散化误差。5) 密集高度图预测模块:预测每个像素的高度值,用于生成3D道路拓扑。

关键创新:TopoMaskV3的关键创新在于:1) 引入了密集偏移场和高度图预测,实现了更精确的3D道路拓扑重建。2) 提出了地理上不相交的分割和长距离评估基准,解决了数据泄露问题,提高了模型的泛化能力。3) 将掩码预测范式扩展到了3D空间,使其能够直接预测3D道路拓扑,而无需依赖于额外的参数头部。

关键设计:在密集偏移场预测中,使用了L1损失函数来约束偏移量的预测。在密集高度图预测中,也使用了L1损失函数。网络结构方面,使用了卷积神经网络来预测偏移量和高度值。在地理分割方面,将数据集按照地理位置划分为训练集、验证集和测试集,确保它们之间没有重叠。长距离评估基准则关注模型在距离较远区域的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TopoMaskV3在地理不相交的基准上取得了28.5 OLS的SOTA结果,超越了所有先前方法。分析表明,掩码表示比Bezier曲线更不容易出现地理过拟合。LiDAR融合在长距离上表现出更大的优势,并且在原始重叠分割上表现出更大的相对增益,这表明存在重叠诱导的记忆效应。

🎯 应用场景

TopoMaskV3在自动驾驶、高精地图构建、城市规划等领域具有广泛的应用前景。它可以用于提高自动驾驶系统的感知能力,构建更精确的道路地图,以及辅助城市规划者进行道路设计和交通管理。该研究的成果有助于提升道路拓扑理解的精度和鲁棒性,为相关应用提供更可靠的基础。

📄 摘要(原文)

Mask-based paradigms for road topology understanding, such as TopoMaskV2, offer a complementary alternative to query-based methods by generating centerlines via a dense rasterized intermediate representation. However, prior work was limited to 2D predictions and suffered from severe discretization artifacts, necessitating fusion with parametric heads. We introduce TopoMaskV3, which advances this pipeline into a robust, standalone 3D predictor via two novel dense prediction heads: a dense offset field for sub-grid discretization correction within the existing BEV resolution, and a dense height map for direct 3D estimation. Beyond the architecture, we are the first to address geographic data leakage in road topology evaluation by introducing (1) geographically distinct splits to prevent memorization and ensure fair generalization, and (2) a long-range (+/-100 m) benchmark. TopoMaskV3 achieves state-of-the-art 28.5 OLS on this geographically disjoint benchmark, surpassing all prior methods. Our analysis shows that the mask representation is more robust to geographic overfitting than Bezier, while LiDAR fusion is most beneficial at long range and exhibits larger relative gains on the overlapping original split, suggesting overlap-induced memorization effects.