LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation
作者: Yang Miao, Jan-Nico Zaech, Xi Wang, Fabien Despinoy, Danda Pani Paudel, Luc Van Gool
分类: cs.CV
发布日期: 2025-10-29 (更新: 2025-10-31)
备注: 10 pages, 5 figures, 14 tables, Neurips 2025
💡 一句话要点
LangHOPS:提出一种基于多模态大语言模型的开放词汇分层部件分割框架。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 物体部件分割 开放词汇 层次结构 零样本学习
📋 核心要点
- 现有物体部件分割方法依赖启发式或可学习的视觉分组,缺乏对语言知识的有效利用。
- LangHOPS将多模态大语言模型融入物体部件解析流程,利用其知识和推理能力构建语言引导的层次结构。
- 实验结果表明,LangHOPS在多个场景下超越现有方法,在PartImageNet和ADE20K数据集上均取得显著提升。
📝 摘要(中文)
本文提出LangHOPS,这是首个基于多模态大语言模型(MLLM)的开放词汇物体部件实例分割框架。给定一张图像,LangHOPS能够联合检测和分割来自开放词汇候选类别的分层物体和部件实例。与依赖于启发式或可学习的视觉分组的先前方法不同,我们的方法将物体-部件层次结构建立在语言空间中。它将MLLM集成到物体-部件解析流程中,以利用其丰富的知识和推理能力,并连接层次结构中的多粒度概念。我们在多个具有挑战性的场景中评估LangHOPS,包括域内和跨数据集的物体-部件实例分割,以及零样本语义分割。LangHOPS取得了最先进的结果,在PartImageNet数据集上,超越了先前的方法,域内平均精度(AP)提高了5.5%,跨数据集平均精度提高了4.8%;在ADE20K中,未见过的物体部件上的平均交并比(mIOU)提高了2.5%(零样本)。消融研究进一步验证了语言引导的层次结构和MLLM驱动的部件查询细化策略的有效性。代码将会开源。
🔬 方法详解
问题定义:现有物体部件实例分割方法主要依赖于视觉特征进行分组,缺乏对语言知识的有效利用,难以处理开放词汇场景,泛化能力受限。这些方法在跨数据集和零样本场景下的表现往往不佳,无法有效利用物体部件之间的层级关系。
核心思路:LangHOPS的核心思路是将物体部件的层次结构与语言空间对齐,利用多模态大语言模型(MLLM)的知识和推理能力,指导物体部件的检测和分割。通过语言的先验知识,可以更好地理解和区分不同的物体部件,并建立它们之间的层级关系,从而提高分割的准确性和泛化能力。
技术框架:LangHOPS的整体框架包含以下几个主要模块:1) 图像编码器:提取图像的视觉特征。2) MLLM:利用图像特征和文本提示生成部件查询。3) 部件分割模块:根据部件查询分割图像中的物体部件。4) 层次结构构建模块:利用MLLM的推理能力构建物体部件的层次结构。整个流程通过迭代的方式进行,不断细化部件查询,最终得到准确的物体部件分割结果。
关键创新:LangHOPS最重要的创新点在于将MLLM引入物体部件分割任务,并利用其强大的语言理解和推理能力构建语言引导的层次结构。与传统的视觉分组方法相比,LangHOPS能够更好地利用语言的先验知识,提高分割的准确性和泛化能力。此外,LangHOPS还提出了一种MLLM驱动的部件查询细化策略,通过迭代的方式不断优化部件查询,从而提高分割的精度。
关键设计:LangHOPS的关键设计包括:1) 使用预训练的视觉Transformer作为图像编码器。2) 使用预训练的MLLM(例如LLaVA)生成部件查询。3) 使用MaskFormer作为部件分割模块。4) 设计特定的文本提示,引导MLLM生成有效的部件查询。5) 使用交叉熵损失和Dice损失作为分割损失函数。6) 通过消融实验验证各个模块的有效性。
📊 实验亮点
LangHOPS在PartImageNet数据集上取得了显著的性能提升,域内平均精度(AP)提高了5.5%,跨数据集平均精度提高了4.8%。在ADE20K数据集上,未见过的物体部件上的平均交并比(mIOU)提高了2.5%(零样本)。消融研究表明,语言引导的层次结构和MLLM驱动的部件查询细化策略对性能提升至关重要。这些结果表明,LangHOPS是一种有效的开放词汇物体部件分割方法。
🎯 应用场景
LangHOPS具有广泛的应用前景,例如智能机器人、自动驾驶、图像编辑和增强现实等领域。在智能机器人领域,LangHOPS可以帮助机器人理解场景中的物体及其部件,从而实现更智能的交互。在自动驾驶领域,LangHOPS可以帮助车辆识别交通标志和车辆部件,提高驾驶安全性。在图像编辑和增强现实领域,LangHOPS可以用于精确地分割图像中的物体部件,从而实现更精细的编辑和增强效果。
📄 摘要(原文)
We propose LangHOPS, the first Multimodal Large Language Model (MLLM) based framework for open-vocabulary object-part instance segmentation. Given an image, LangHOPS can jointly detect and segment hierarchical object and part instances from open-vocabulary candidate categories. Unlike prior approaches that rely on heuristic or learnable visual grouping, our approach grounds object-part hierarchies in language space. It integrates the MLLM into the object-part parsing pipeline to leverage its rich knowledge and reasoning capabilities, and link multi-granularity concepts within the hierarchies. We evaluate LangHOPS across multiple challenging scenarios, including in-domain and cross-dataset object-part instance segmentation, and zero-shot semantic segmentation. LangHOPS achieves state-of-the-art results, surpassing previous methods by 5.5% Average Precision (AP) (in-domain) and 4.8% (cross-dataset) on the PartImageNet dataset and by 2.5% mIOU on unseen object parts in ADE20K (zero-shot). Ablation studies further validate the effectiveness of the language-grounded hierarchy and MLLM driven part query refinement strategy. The code will be released here.