LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation

作者: Yang Miao, Jan-Nico Zaech, Xi Wang, Fabien Despinoy, Danda Pani Paudel, Luc Van Gool

分类: cs.CV

发布日期: 2025-10-29 (更新: 2025-10-31)

备注: 10 pages, 5 figures, 14 tables, Neurips 2025

💡 一句话要点

LangHOPS：提出一种基于多模态大语言模型的开放词汇分层部件分割框架。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 物体部件分割 开放词汇 层次结构 零样本学习

📋 核心要点

现有物体部件分割方法依赖启发式或可学习的视觉分组，缺乏对语言知识的有效利用。
LangHOPS将多模态大语言模型融入物体部件解析流程，利用其知识和推理能力构建语言引导的层次结构。
实验结果表明，LangHOPS在多个场景下超越现有方法，在PartImageNet和ADE20K数据集上均取得显著提升。

📝 摘要（中文）

本文提出LangHOPS，这是首个基于多模态大语言模型（MLLM）的开放词汇物体部件实例分割框架。给定一张图像，LangHOPS能够联合检测和分割来自开放词汇候选类别的分层物体和部件实例。与依赖于启发式或可学习的视觉分组的先前方法不同，我们的方法将物体-部件层次结构建立在语言空间中。它将MLLM集成到物体-部件解析流程中，以利用其丰富的知识和推理能力，并连接层次结构中的多粒度概念。我们在多个具有挑战性的场景中评估LangHOPS，包括域内和跨数据集的物体-部件实例分割，以及零样本语义分割。LangHOPS取得了最先进的结果，在PartImageNet数据集上，超越了先前的方法，域内平均精度（AP）提高了5.5%，跨数据集平均精度提高了4.8%；在ADE20K中，未见过的物体部件上的平均交并比（mIOU）提高了2.5%（零样本）。消融研究进一步验证了语言引导的层次结构和MLLM驱动的部件查询细化策略的有效性。代码将会开源。

🔬 方法详解

问题定义：现有物体部件实例分割方法主要依赖于视觉特征进行分组，缺乏对语言知识的有效利用，难以处理开放词汇场景，泛化能力受限。这些方法在跨数据集和零样本场景下的表现往往不佳，无法有效利用物体部件之间的层级关系。

核心思路：LangHOPS的核心思路是将物体部件的层次结构与语言空间对齐，利用多模态大语言模型（MLLM）的知识和推理能力，指导物体部件的检测和分割。通过语言的先验知识，可以更好地理解和区分不同的物体部件，并建立它们之间的层级关系，从而提高分割的准确性和泛化能力。

技术框架：LangHOPS的整体框架包含以下几个主要模块：1) 图像编码器：提取图像的视觉特征。2) MLLM：利用图像特征和文本提示生成部件查询。3) 部件分割模块：根据部件查询分割图像中的物体部件。4) 层次结构构建模块：利用MLLM的推理能力构建物体部件的层次结构。整个流程通过迭代的方式进行，不断细化部件查询，最终得到准确的物体部件分割结果。

关键创新：LangHOPS最重要的创新点在于将MLLM引入物体部件分割任务，并利用其强大的语言理解和推理能力构建语言引导的层次结构。与传统的视觉分组方法相比，LangHOPS能够更好地利用语言的先验知识，提高分割的准确性和泛化能力。此外，LangHOPS还提出了一种MLLM驱动的部件查询细化策略，通过迭代的方式不断优化部件查询，从而提高分割的精度。

关键设计：LangHOPS的关键设计包括：1) 使用预训练的视觉Transformer作为图像编码器。2) 使用预训练的MLLM（例如LLaVA）生成部件查询。3) 使用MaskFormer作为部件分割模块。4) 设计特定的文本提示，引导MLLM生成有效的部件查询。5) 使用交叉熵损失和Dice损失作为分割损失函数。6) 通过消融实验验证各个模块的有效性。

📊 实验亮点

LangHOPS在PartImageNet数据集上取得了显著的性能提升，域内平均精度（AP）提高了5.5%，跨数据集平均精度提高了4.8%。在ADE20K数据集上，未见过的物体部件上的平均交并比（mIOU）提高了2.5%（零样本）。消融研究表明，语言引导的层次结构和MLLM驱动的部件查询细化策略对性能提升至关重要。这些结果表明，LangHOPS是一种有效的开放词汇物体部件分割方法。

🎯 应用场景

LangHOPS具有广泛的应用前景，例如智能机器人、自动驾驶、图像编辑和增强现实等领域。在智能机器人领域，LangHOPS可以帮助机器人理解场景中的物体及其部件，从而实现更智能的交互。在自动驾驶领域，LangHOPS可以帮助车辆识别交通标志和车辆部件，提高驾驶安全性。在图像编辑和增强现实领域，LangHOPS可以用于精确地分割图像中的物体部件，从而实现更精细的编辑和增强效果。

📄 摘要（原文）

We propose LangHOPS, the first Multimodal Large Language Model (MLLM) based framework for open-vocabulary object-part instance segmentation. Given an image, LangHOPS can jointly detect and segment hierarchical object and part instances from open-vocabulary candidate categories. Unlike prior approaches that rely on heuristic or learnable visual grouping, our approach grounds object-part hierarchies in language space. It integrates the MLLM into the object-part parsing pipeline to leverage its rich knowledge and reasoning capabilities, and link multi-granularity concepts within the hierarchies. We evaluate LangHOPS across multiple challenging scenarios, including in-domain and cross-dataset object-part instance segmentation, and zero-shot semantic segmentation. LangHOPS achieves state-of-the-art results, surpassing previous methods by 5.5% Average Precision (AP) (in-domain) and 4.8% (cross-dataset) on the PartImageNet dataset and by 2.5% mIOU on unseen object parts in ADE20K (zero-shot). Ablation studies further validate the effectiveness of the language-grounded hierarchy and MLLM driven part query refinement strategy. The code will be released here.

LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册