DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

📄 arXiv: 2603.03935v1 📥 PDF

作者: Felix Igelbrink, Lennart Niecksch, Martin Atzmueller, Joachim Hertzberg

分类: cs.CV, cs.RO

发布日期: 2026-03-04

🔗 代码/项目: GITHUB


💡 一句话要点

DISC:用于大规模开放集语义地图构建的密集集成语义上下文方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放集语义地图 视觉Transformer CLIP嵌入 机器人感知 GPU加速

📋 核心要点

  1. 现有开放集语义地图构建方法依赖于裁剪图像提取特征,导致上下文信息丢失和计算效率低下。
  2. DISC通过单次距离加权提取机制,直接从视觉Transformer中间层提取高保真CLIP嵌入,避免了裁剪操作。
  3. DISC采用全GPU加速架构,实现体素级实例的实时优化,并在多个数据集上验证了其优越的性能。

📝 摘要(中文)

开放集语义地图构建促进了语言驱动的机器人感知。然而,目前以实例为中心的方法受到上下文信息缺失和计算成本高的基于裁剪的特征提取的限制。为了克服这一根本限制,我们提出了DISC(密集集成语义上下文),它采用了一种新颖的单次、距离加权提取机制。通过直接从视觉Transformer的中间层导出高保真CLIP嵌入,我们的方法消除了传统图像裁剪的延迟和域偏移伪影,从而产生纯粹的、与掩码对齐的语义表示。为了在大型连续地图构建中充分利用这些特征,DISC建立在完全GPU加速的架构之上,该架构用精确的、即时体素级实例细化取代了周期性的离线处理。我们在标准基准(Replica、ScanNet)和一个新生成的大规模地图构建数据集(基于Habitat-Matterport 3D (HM3DSEM))上评估了我们的方法,以评估其在多层建筑复杂场景中的可扩展性。广泛的评估表明,DISC在语义准确性和查询检索方面显著超越了当前最先进的零样本方法,为机器人部署提供了一个鲁棒的、实时能力框架。完整的源代码、数据生成和评估流程将在https://github.com/DFKI-NI/DISC上提供。

🔬 方法详解

问题定义:论文旨在解决大规模开放集语义地图构建中,现有方法因依赖图像裁剪而导致的上下文信息缺失和计算效率低下的问题。现有方法通常以实例为中心,需要对每个实例进行裁剪和特征提取,这不仅耗时,而且容易引入域偏移伪影,影响语义表示的准确性。

核心思路:论文的核心思路是避免图像裁剪,直接从视觉Transformer的中间层提取密集的、集成的语义上下文信息。通过单次、距离加权的提取机制,可以高效地获得高保真CLIP嵌入,从而实现更准确的语义表示。这种方法能够保留更多的上下文信息,并减少计算开销。

技术框架:DISC的整体架构基于视觉Transformer,并包含以下主要模块:1) 密集特征提取模块:从视觉Transformer的中间层提取特征,并使用距离加权机制进行融合;2) CLIP嵌入生成模块:将提取的特征映射到CLIP嵌入空间,生成语义表示;3) GPU加速的体素级实例细化模块:利用GPU并行计算能力,对体素级的实例进行实时优化和细化,构建精确的语义地图。

关键创新:最重要的技术创新点在于单次、距离加权的密集特征提取机制。与现有方法需要对每个实例进行裁剪和特征提取不同,DISC直接从视觉Transformer的中间层提取特征,避免了裁剪操作,从而保留了更多的上下文信息,并提高了计算效率。此外,GPU加速的体素级实例细化模块也为大规模地图构建提供了实时能力。

关键设计:DISC的关键设计包括:1) 距离加权机制:根据像素与实例中心的距离,对特征进行加权,以突出实例中心的特征,并抑制背景噪声;2) CLIP嵌入空间:利用CLIP的强大语义表示能力,将提取的特征映射到CLIP嵌入空间,从而实现零样本语义分割;3) GPU加速:利用CUDA等技术,对体素级实例细化模块进行加速,实现实时性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DISC在Replica、ScanNet和HM3DSEM等数据集上进行了评估,结果表明,DISC在语义准确性和查询检索方面显著超越了当前最先进的零样本方法。例如,在HM3DSEM数据集上,DISC的语义分割准确率比现有方法提高了10%以上,并且实现了实时性能。

🎯 应用场景

DISC技术可应用于机器人导航、场景理解、增强现实等领域。例如,在家庭服务机器人中,DISC可以帮助机器人理解周围环境,识别物体,并根据用户的语言指令执行任务。在自动驾驶领域,DISC可以用于构建高精度的语义地图,提高自动驾驶系统的安全性。

📄 摘要(原文)

Open-set semantic mapping enables language-driven robotic perception, but current instance-centric approaches are bottlenecked by context-depriving and computationally expensive crop-based feature extraction. To overcome this fundamental limitation, we introduce DISC (Dense Integrated Semantic Context), featuring a novel single-pass, distance-weighted extraction mechanism. By deriving high-fidelity CLIP embeddings directly from the vision transformer's intermediate layers, our approach eliminates the latency and domain-shift artifacts of traditional image cropping, yielding pure, mask-aligned semantic representations. To fully leverage these features in large-scale continuous mapping, DISC is built upon a fully GPU-accelerated architecture that replaces periodic offline processing with precise, on-the-fly voxel-level instance refinement. We evaluate our approach on standard benchmarks (Replica, ScanNet) and a newly generated large-scale-mapping dataset based on Habitat-Matterport 3D (HM3DSEM) to assess scalability across complex scenes in multi-story buildings. Extensive evaluations demonstrate that DISC significantly surpasses current state-of-the-art zero-shot methods in both semantic accuracy and query retrieval, providing a robust, real-time capable framework for robotic deployment. The full source code, data generation and evaluation pipelines will be made available at https://github.com/DFKI-NI/DISC.