GSVA: Generalized Segmentation via Multimodal Large Language Models

📄 arXiv: 2312.10103v3 📥 PDF

作者: Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang

分类: cs.CV

发布日期: 2023-12-15 (更新: 2024-03-21)

备注: Accepted by CVPR2024 (19 pages, 9 figures, 11 tables)


💡 一句话要点

提出GSVA,通过多模态大语言模型解决广义指代表达分割问题

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 广义指代表达分割 多模态大语言模型 视觉语言模型 分割模型 目标拒绝

📋 核心要点

  1. 现有GRES方法难以处理单个提示中多个对象指代以及描述与图像目标不符的情况。
  2. GSVA重用[SEG] token支持多掩码引用,并学习生成[REJ] token显式拒绝空目标。
  3. 实验表明GSVA显著提升了GRES性能,并在gRefCOCO数据集上创造了新的记录。

📝 摘要(中文)

广义指代表达分割(GRES)扩展了经典RES的范围,可以指代一个表达式中的多个对象,或者识别图像中不存在的空目标。GRES在建模图像中实例的复杂空间关系和识别不存在的指称对象方面提出了挑战。多模态大语言模型(MLLM)最近在这些复杂的视觉-语言任务中显示出巨大的进步。通过连接大语言模型(LLM)和视觉模型,MLLM擅长理解带有视觉输入的上下文。其中,LISA作为代表,采用特殊的[SEG] token来提示分割掩码解码器(例如SAM),从而使MLLM能够执行RES任务。然而,现有的GRES解决方案仍然不能令人满意,因为当前的分割MLLM无法正确处理用户可能在单个提示中引用多个对象,或者提供的描述与任何图像目标不一致的情况。在本文中,我们提出了广义分割视觉助手(GSVA)来解决这一差距。具体来说,GSVA重用[SEG] token来提示分割模型以同时支持多个掩码引用,并创新地学习生成[REJ] token来显式地拒绝空目标。实验验证了GSVA在解决GRES问题上的有效性,标志着显著的增强,并在GRES基准gRefCOCO数据集上创造了新的记录。GSVA也被证明在各种经典的指代分割和理解任务中有效。

🔬 方法详解

问题定义:论文旨在解决广义指代表达分割(GRES)问题。GRES相较于传统的指代表达分割(RES),需要处理更复杂的情况,例如单个表达式指代多个对象,或者表达式描述的对象在图像中不存在。现有方法,尤其是基于多模态大语言模型(MLLM)的方法,在处理这些复杂情况时表现不佳,无法准确分割多个目标或拒绝不存在的目标。

核心思路:GSVA的核心思路是扩展MLLM处理分割任务的能力,使其能够同时处理多个目标的分割,并且能够显式地拒绝图像中不存在的目标。通过引入新的token和训练策略,GSVA能够更好地理解复杂的指代表达,并生成更准确的分割结果。

技术框架:GSVA基于现有的MLLM框架,例如LISA。它主要包含以下几个模块:1) 文本编码器:用于编码指代表达;2) 视觉编码器:用于编码图像;3) 分割解码器:用于生成分割掩码。GSVA的关键改进在于分割解码器部分,通过重用[SEG] token和引入[REJ] token,增强了其处理复杂GRES场景的能力。

关键创新:GSVA的关键创新在于两个方面:1) 重用[SEG] token:允许模型同时生成多个分割掩码,从而支持单个表达式指代多个对象的情况;2) 引入[REJ] token:允许模型显式地拒绝图像中不存在的目标,从而避免生成错误的分割结果。

关键设计:GSVA的关键设计包括:1) [SEG] token的重用:通过训练模型学习如何根据不同的上下文生成多个分割掩码;2) [REJ] token的训练:通过引入包含不存在目标的负样本,训练模型学习何时生成[REJ] token;3) 损失函数的设计:采用合适的损失函数来优化模型的分割性能和拒绝能力。

📊 实验亮点

GSVA在gRefCOCO数据集上取得了显著的性能提升,创造了新的记录。实验结果表明,GSVA能够有效地处理单个表达式指代多个对象以及目标不存在的情况,相较于现有方法,在分割精度和拒绝错误目标方面都有显著的提升。具体性能数据在论文中有详细展示。

🎯 应用场景

GSVA在机器人导航、图像编辑、智能安防等领域具有广泛的应用前景。例如,在机器人导航中,机器人可以根据用户的自然语言指令分割出需要操作的对象;在图像编辑中,用户可以通过自然语言指定需要修改的区域;在智能安防中,系统可以根据描述分割出可疑目标。

📄 摘要(原文)

Generalized Referring Expression Segmentation (GRES) extends the scope of classic RES to refer to multiple objects in one expression or identify the empty targets absent in the image. GRES poses challenges in modeling the complex spatial relationships of the instances in the image and identifying non-existing referents. Multimodal Large Language Models (MLLMs) have recently shown tremendous progress in these complicated vision-language tasks. Connecting Large Language Models (LLMs) and vision models, MLLMs are proficient in understanding contexts with visual inputs. Among them, LISA, as a representative, adopts a special [SEG] token to prompt a segmentation mask decoder, e.g., SAM, to enable MLLMs in the RES task. However, existing solutions to GRES remain unsatisfactory since current segmentation MLLMs cannot correctly handle the cases where users might reference multiple subjects in a singular prompt or provide descriptions incongruent with any image target. In this paper, we propose Generalized Segmentation Vision Assistant (GSVA) to address this gap. Specifically, GSVA reuses the [SEG] token to prompt the segmentation model towards supporting multiple mask references simultaneously and innovatively learns to generate a [REJ] token to reject the null targets explicitly. Experiments validate GSVA's efficacy in resolving the GRES issue, marking a notable enhancement and setting a new record on the GRES benchmark gRefCOCO dataset. GSVA also proves effective across various classic referring segmentation and comprehension tasks.