CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

作者: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li

分类: cs.CV, cs.CL, cs.LG, cs.MM

发布日期: 2023-12-12 (更新: 2024-05-07)

备注: To appear in CVPR 2024. Project page: https://torrvision.com/clip_as_rnn/

💡 一句话要点

提出基于CLIP的循环分割框架，无需训练即可分割海量视觉概念

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 零样本学习 视觉语言模型 循环神经网络 图像分割

📋 核心要点

现有开放词汇分割方法依赖于耗时的掩码标注和微调，限制了模型泛化能力和词汇量。
提出一种基于CLIP的循环分割框架，通过迭代过滤文本信息来提升分割质量，无需额外训练。
实验结果表明，该方法在零样本语义和指代分割任务上超越了现有方法，显著提升了性能。

📝 摘要（中文）

现有的开放词汇图像分割方法需要在掩码标签和/或图像-文本数据集上进行微调。掩码标签标注成本高昂，限制了分割数据集中类别的数量。因此，预训练的视觉语言模型（VLM）的词汇容量在微调后会大大降低。然而，在没有微调的情况下，在弱图像-文本监督下训练的VLM往往会产生次优的掩码预测。为了缓解这些问题，我们引入了一种新颖的循环框架，该框架逐步过滤掉不相关的文本并提高掩码质量，而无需训练。循环单元是一个建立在冻结VLM之上的两阶段分割器。因此，我们的模型保留了VLM的广泛词汇空间，并赋予其分割能力。实验表明，我们的方法不仅优于无训练的同类方法，而且优于那些使用数百万数据样本进行微调的方法，并为零样本语义和指代分割创造了新的最先进记录。具体而言，我们在Pascal VOC、COCO Object和Pascal Context上分别将当前记录提高了28.8、16.0和6.9 mIoU。

🔬 方法详解

问题定义：开放词汇图像分割旨在识别图像中任意文本描述的概念，现有方法通常需要大量的掩码标注数据进行微调，这限制了模型能够处理的类别数量和泛化能力。此外，在弱监督下训练的VLM直接用于分割时，分割效果往往不佳。

核心思路：论文的核心思路是利用预训练的CLIP模型强大的视觉-文本对齐能力，构建一个循环分割框架，通过迭代地过滤掉不相关的文本信息，逐步优化分割结果。该框架无需任何训练，即可实现对海量视觉概念的分割。

技术框架：该框架包含一个循环单元，该单元是一个两阶段分割器，建立在冻结的VLM之上。第一阶段，模型利用VLM生成初始的分割掩码。第二阶段，模型根据初始掩码，过滤掉与图像内容不相关的文本描述，并利用过滤后的文本信息重新生成分割掩码。这个过程循环进行，直到分割结果收敛。

关键创新：该方法最重要的创新点在于提出了一个无需训练的循环分割框架，该框架能够充分利用预训练VLM的知识，并逐步优化分割结果。与现有方法相比，该方法不需要任何掩码标注数据，即可实现对海量视觉概念的分割。

关键设计：循环单元的设计是关键。两阶段分割器利用VLM的视觉-文本对齐能力生成掩码，并通过迭代过滤文本信息来提高分割质量。具体的文本过滤策略和循环停止条件是影响性能的关键因素，但论文中没有详细说明具体的设计细节。

📊 实验亮点

该方法在零样本语义分割和指代分割任务上取得了显著的性能提升。在Pascal VOC上提升了28.8 mIoU，在COCO Object上提升了16.0 mIoU，在Pascal Context上提升了6.9 mIoU。这些结果表明，该方法不仅优于无训练的同类方法，而且优于那些使用数百万数据样本进行微调的方法。

🎯 应用场景

该研究成果可广泛应用于图像编辑、场景理解、机器人导航等领域。例如，用户可以通过自然语言指令，对图像中的特定物体进行分割和编辑。在机器人领域，该技术可以帮助机器人理解周围环境，并根据指令执行任务。该方法无需训练的特性，使其具有很高的应用价值和潜力。

📄 摘要（原文）

Existing open-vocabulary image segmentation methods require a fine-tuning step on mask labels and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. Consequently, the vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a frozen VLM. Thus, our model retains the VLM's broad vocabulary space and equips it with segmentation ability. Experiments show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of data samples, and sets the new state-of-the-art records for both zero-shot semantic and referring segmentation. Concretely, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册