Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

📄 arXiv: 2603.06374v1 📥 PDF

作者: Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

Rewis3d:利用3D重建提升弱监督语义分割性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 弱监督学习 语义分割 3D重建 学生-教师模型 几何约束

📋 核心要点

  1. 现有弱监督语义分割方法依赖稀疏标注,性能与全监督方法相比仍有差距,标注成本依然较高。
  2. Rewis3d利用3D场景重建作为辅助监督信号,通过2D图像和3D点云的语义一致性约束,传播稀疏标注。
  3. 实验结果表明,Rewis3d在稀疏监督语义分割任务上取得了state-of-the-art的性能,无需额外标签和推理开销。

📝 摘要(中文)

本文提出Rewis3d框架,利用前馈3D重建的最新进展,显著提升2D图像上的弱监督语义分割性能。获取密集的像素级标注是训练分割模型的昂贵瓶颈。稀疏标注作为一种高效的弱监督替代方案,但仍存在性能差距。为了解决这个问题,我们引入了一种利用3D场景重建作为辅助监督信号的新方法。我们的关键见解是,从2D视频中恢复的3D几何结构提供了强大的线索,可以将稀疏标注传播到整个场景中。具体来说,双学生-教师架构强制执行2D图像和重建的3D点云之间的语义一致性,使用最先进的前馈重建来生成可靠的几何监督。大量实验表明,Rewis3d在稀疏监督方面实现了最先进的性能,优于现有方法2-7%,且不需要额外的标签或推理开销。

🔬 方法详解

问题定义:论文旨在解决弱监督语义分割中,仅使用稀疏标注导致性能受限的问题。现有方法难以充分利用图像中的上下文信息,且标注成本仍然较高。

核心思路:论文的核心思路是利用3D场景重建提供的几何信息作为辅助监督信号,将稀疏标注从已标注的像素传播到整个场景。通过在2D图像和3D重建点云之间建立语义一致性,可以有效地利用未标注区域的信息,提升分割性能。

技术框架:Rewis3d采用双学生-教师架构。教师网络基于2D图像进行语义分割,并利用前馈3D重建模块生成3D点云。学生网络同时处理2D图像和3D点云,并强制两者之间的语义一致性。通过最小化学生网络在2D图像和3D点云上的分割结果差异,实现知识迁移和性能提升。

关键创新:该方法最重要的创新点在于将3D重建引入弱监督语义分割任务中,并设计了一种有效的双学生-教师架构来实现2D图像和3D点云之间的语义一致性。与现有方法相比,该方法无需额外的标注,且能够充分利用场景的几何信息。

关键设计:Rewis3d的关键设计包括:1) 使用state-of-the-art的前馈3D重建模块生成高质量的3D点云;2) 设计合适的损失函数来衡量2D图像和3D点云之间的语义一致性,例如交叉熵损失和一致性损失;3) 精心选择学生和教师网络的结构,保证网络的学习能力和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Rewis3d在ScanNet数据集上进行了实验,结果表明,该方法在稀疏监督语义分割任务上取得了state-of-the-art的性能,优于现有方法2-7%。此外,该方法无需额外的标签或推理开销,具有很高的实用价值。实验结果验证了利用3D重建信息提升弱监督语义分割性能的有效性。

🎯 应用场景

Rewis3d在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。通过利用3D重建技术,可以降低语义分割任务的标注成本,提高分割精度,从而为这些应用提供更可靠的环境感知能力。该方法还可以应用于其他弱监督学习任务,例如目标检测和图像生成。

📄 摘要(原文)

We present Rewis3d, a framework that leverages recent advances in feed-forward 3D reconstruction to significantly improve weakly supervised semantic segmentation on 2D images. Obtaining dense, pixel-level annotations remains a costly bottleneck for training segmentation models. Alleviating this issue, sparse annotations offer an efficient weakly-supervised alternative. However, they still incur a performance gap. To address this, we introduce a novel approach that leverages 3D scene reconstruction as an auxiliary supervisory signal. Our key insight is that 3D geometric structure recovered from 2D videos provides strong cues that can propagate sparse annotations across entire scenes. Specifically, a dual student-teacher architecture enforces semantic consistency between 2D images and reconstructed 3D point clouds, using state-of-the-art feed-forward reconstruction to generate reliable geometric supervision. Extensive experiments demonstrate that Rewis3d achieves state-of-the-art performance in sparse supervision, outperforming existing approaches by 2-7% without requiring additional labels or inference overhead.