Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

作者: Yihang Duan, Jiong Wang, Pengpeng Zeng, Ji Zhang, Lei Zhao, Chong Wang, Jingkuan Song, Lianli Gao

分类: cs.CV

发布日期: 2026-03-04

💡 一句话要点

提出结构感知Prompt适配方法，提升开放词汇组合零样本学习的泛化能力

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇学习 组合零样本学习 Prompt Tuning 结构感知 知识迁移

📋 核心要点

现有Prompt Tuning方法在开放词汇组合零样本学习中，难以泛化到未见属性、对象及其组合。
论文提出结构感知Prompt适配(SPA)方法，通过结构一致性损失和结构引导适配策略，实现从已见概念到未见概念的泛化。
实验结果表明，SPA在保持闭集性能的同时，显著提升了开放词汇组合零样本学习的性能。

📝 摘要（中文）

开放词汇组合零样本学习 (OV-CZSL) 的目标是在开放词汇设置中识别属性-对象组合，其中评估的是已见和未见属性与对象的组合。最近，prompt tuning 方法在闭集设置中表现出强大的泛化能力，即组合零样本学习 (CZSL)，但仅评估已见属性和对象的组合。然而，直接将这些方法应用于 OV-CZSL 可能不足以泛化到未见的属性、对象及其组合，因为它仅限于已见的属性和对象。通常，当面对未见的概念时，人类会采用与具有相似语义的已见概念进行类比，从而推断其含义（例如，“湿”和“潮”，“衬衫”和“夹克”）。在本文中，我们通过实验表明，语义相关的属性或对象的分布倾向于在嵌入空间中形成一致的局部结构。基于上述结构，我们提出了一种结构感知 Prompt 适配 (SPA) 方法，该方法使模型能够从已见属性和对象泛化到未见属性和对象。具体来说，在训练阶段，我们设计了一种结构感知一致性损失 (SCL)，该损失鼓励每次迭代中已见属性和对象的局部结构的一致性。在推理阶段，我们设计了一种结构引导的适配策略 (SAS)，该策略自适应地将未见属性和对象的结构与具有相似语义的已训练已见属性和对象的结构对齐。值得注意的是，SPA 是一种即插即用的方法，可以无缝集成到现有的 CZSL prompt tuning 方法中。在 OV-CZSL 基准上的大量实验表明，SPA 实现了有竞争力的闭集性能，同时显着提高了开放词汇结果。

🔬 方法详解

问题定义：开放词汇组合零样本学习(OV-CZSL)旨在识别未见过的属性-对象组合。现有Prompt Tuning方法在闭集(只包含已见属性和对象组合)上表现良好，但直接应用于OV-CZSL时，由于缺乏对未见属性和对象的学习，泛化能力不足。这些方法无法有效利用已见概念与未见概念之间的语义关系，导致性能下降。

核心思路：论文的核心思想是利用语义相关的属性或对象在嵌入空间中倾向于形成一致的局部结构这一特性。通过学习已见属性和对象的结构，并将这些结构知识迁移到未见属性和对象上，从而实现更好的泛化能力。这种结构化的知识迁移方式模拟了人类通过类比进行推理的过程。

技术框架：SPA方法包含训练阶段和推理阶段。在训练阶段，使用结构感知一致性损失(SCL)来鼓励已见属性和对象的局部结构的一致性。在推理阶段，使用结构引导的适配策略(SAS)自适应地将未见属性和对象的结构与已训练的已见属性和对象的结构对齐。SPA可以作为插件集成到现有的CZSL prompt tuning方法中。

关键创新：该方法最重要的创新点在于提出了结构感知的Prompt适配策略。与以往只关注Prompt本身的学习方法不同，SPA关注属性和对象在嵌入空间中的结构关系，通过结构一致性损失和结构引导适配策略，实现了从已见概念到未见概念的知识迁移。这种结构化的知识迁移方式更符合人类的认知方式，也更有效地利用了数据中的语义信息。

关键设计：结构感知一致性损失(SCL)旨在最小化同一语义类别内不同实例的结构差异。结构引导的适配策略(SAS)通过寻找与未见属性/对象语义最相似的已见属性/对象，并将已见属性/对象的结构信息迁移到未见属性/对象上。具体的实现方式可能包括计算嵌入向量之间的距离，并使用加权平均等方法进行结构对齐。具体的参数设置和网络结构细节未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPA方法在OV-CZSL基准测试中取得了显著的性能提升。在保持闭集性能的同时，SPA显著提高了开放词汇的结果。具体的性能数据和对比基线需要在论文全文中查找，但摘要强调了SPA在开放词汇场景下的优越性。

🎯 应用场景

该研究成果可应用于图像识别、自然语言处理等领域，尤其是在需要处理大量未见过的组合概念的场景下，例如智能客服、商品推荐、内容审核等。通过提升模型对未见组合的识别能力，可以提高系统的鲁棒性和泛化能力，从而更好地服务于用户。

📄 摘要（原文）

The goal of Open-Vocabulary Compositional Zero-Shot Learning (OV-CZSL) is to recognize attribute-object compositions in the open-vocabulary setting, where compositions of both seen and unseen attributes and objects are evaluated. Recently, prompt tuning methods have demonstrated strong generalization capabilities in the closed setting, where only compositions of seen attributes and objects are evaluated, i.e., Compositional Zero-Shot Learning (CZSL). However, directly applying these methods to OV-CZSL may not be sufficient to generalize to unseen attributes, objects and their compositions, as it is limited to seen attributes and objects. Normally, when faced with unseen concepts, humans adopt analogies with seen concepts that have the similar semantics thereby inferring their meaning (e.g., "wet" and "damp", "shirt" and "jacket"). In this paper, we experimentally show that the distribution of semantically related attributes or objects tends to form consistent local structures in the embedding space. Based on the above structures, we propose Structure-aware Prompt Adaptation (SPA) method, which enables models to generalize from seen to unseen attributes and objects. Specifically, in the training stage, we design a Structure-aware Consistency Loss (SCL) that encourages the local structure's consistency of seen attributes and objects in each iteration. In the inference stage, we devise a Structure-guided Adaptation Strategy (SAS) that adaptively aligns the structures of unseen attributes and objects with those of trained seen attributes and objects with similar semantics. Notably, SPA is a plug-and-play method that can be seamlessly integrated into existing CZSL prompt tuning methods. Extensive experiments on OV-CZSL benchmarks demonstrate that SPA achieves competitive closed-set performance while significantly improving open-vocabulary results.

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理