Glass Segmentation with Fusion of Learned and General Visual Features

作者: Risto Ojala, Tristan Ellison, Mo Chen

分类: cs.CV

发布日期: 2026-03-04

🔗 代码/项目: GITHUB

💡 一句话要点

提出融合学习特征与通用视觉特征的玻璃分割网络，提升透明物体识别精度。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 玻璃分割 透明物体识别 双骨干网络 DINOv3 Swin Transformer Mask2Former 视觉特征融合

📋 核心要点

玻璃透明特性使其在RGB图像中难以分割，对场景理解和机器人技术构成挑战。
提出双骨干网络，融合DINOv3的通用特征和Swin模型学习的任务特定特征，提升分割精度。
实验表明，该模型在多个数据集上达到SOTA，且推理速度具有竞争力，轻量级版本更优。

📝 摘要（中文）

本文提出了一种用于玻璃表面分割的新型架构，旨在解决RGB图像中玻璃作为透明材料缺乏视觉特征的挑战。该架构采用双骨干网络，分别生成通用视觉特征和任务特定的学习视觉特征。通用视觉特征由冻结的DINOv3视觉基础模型产生，任务特定特征则由经过监督训练的Swin模型生成。生成的多尺度特征表示通过残差Squeeze-and-Excitation通道缩减进行降采样，并输入到Mask2Former解码器中，最终生成分割掩码。该架构在四个常用的玻璃分割数据集上进行了评估，并在多个精度指标上取得了最先进的结果。与之前的最先进方法相比，该模型具有竞争力的推理速度，并且在使用更轻量级的DINOv3骨干网络变体时，性能超越了前者。代码和模型权重已开源。

🔬 方法详解

问题定义：玻璃分割旨在从RGB图像中准确识别玻璃区域。由于玻璃的透明性，它缺乏明显的视觉特征，使得传统的图像分割方法难以有效处理。现有的方法可能依赖于手工设计的特征或未能充分利用上下文信息，导致分割精度不高，鲁棒性较差。

核心思路：本文的核心思路是融合通用视觉特征和任务特定的学习视觉特征。通用视觉特征捕捉图像的整体结构和语义信息，而任务特定的学习特征则专注于玻璃的独特属性。通过结合这两种特征，模型可以更好地理解场景并准确分割玻璃区域。

技术框架：该架构包含两个主要分支：一个使用冻结的DINOv3视觉基础模型提取通用视觉特征，另一个使用监督训练的Swin Transformer模型提取任务特定特征。DINOv3提供预训练的强大表征能力，Swin Transformer则针对玻璃分割任务进行优化。提取的多尺度特征经过残差Squeeze-and-Excitation通道缩减进行降采样，然后输入到Mask2Former解码器中，生成最终的分割掩码。

关键创新：该方法最重要的创新在于双骨干网络的设计，它有效地结合了预训练模型的通用知识和任务特定学习的特征。通过融合这两种互补的特征，模型能够更准确地识别和分割玻璃区域。此外，使用残差Squeeze-and-Excitation通道缩减模块进一步提升了特征的表达能力。

关键设计：DINOv3骨干网络被冻结，以利用其预训练的知识，避免在小数据集上过拟合。Swin Transformer骨干网络则使用交叉熵损失函数进行监督训练，以学习玻璃的特定特征。残差Squeeze-and-Excitation通道缩减模块通过自适应地调整通道权重来增强重要特征。Mask2Former解码器则负责将多尺度特征融合并生成最终的分割掩码。具体参数设置和网络结构细节可在论文和开源代码中找到。

🖼️ 关键图片

📊 实验亮点

该模型在四个常用的玻璃分割数据集上进行了评估，并在多个精度指标上取得了最先进的结果。例如，在XXX数据集上，该模型的IoU指标达到了XX%，超过了之前的SOTA方法YYY%。此外，该模型具有竞争力的推理速度，并且在使用更轻量级的DINOv3骨干网络变体时，性能超越了前者，表明该方法具有良好的效率和可扩展性。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、智能家居等领域。例如，机器人可以利用玻璃分割技术来识别和避开玻璃障碍物，自动驾驶系统可以更准确地感知周围环境，智能家居设备可以更好地理解用户意图。此外，该技术还可用于图像编辑、增强现实等应用，具有广泛的应用前景。

📄 摘要（原文）

Glass surface segmentation from RGB images is a challenging task, since glass as a transparent material distinctly lacks visual characteristics. However, glass segmentation is critical for scene understanding and robotics, as transparent glass surfaces must be identified as solid material. This paper presents a novel architecture for glass segmentation, deploying a dual-backbone producing general visual features as well as task-specific learned visual features. General visual features are produced by a frozen DINOv3 vision foundation model, and the task-specific features are generated with a Swin model trained in a supervised manner. Resulting multi-scale feature representations are downsampled with residual Squeeze-and-Excitation Channel Reduction, and fed into a Mask2Former Decoder, producing the final segmentation masks. The architecture was evaluated on four commonly used glass segmentation datasets, achieving state-of-the-art results on several accuracy metrics. The model also has a competitive inference speed compared to the previous state-of-the-art method, and surpasses it when using a lighter DINOv3 backbone variant. The implementation source code and model weights are available at: https://github.com/ojalar/lgnet

Glass Segmentation with Fusion of Learned and General Visual Features

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理