TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
作者: Xudong Yan, Songhe Feng
分类: cs.CV
发布日期: 2025-10-23
备注: Accepted to NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出TOMCAT,通过测试时知识累积解决组合零样本学习中的分布偏移问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合零样本学习 知识累积 分布偏移 多模态学习 原型学习
📋 核心要点
- 现有组合零样本学习方法在测试时面临标签空间分布偏移,导致性能下降。
- 提出TOMCAT方法,通过累积文本和视觉模态的知识,自适应更新多模态原型,缓解分布偏移。
- 实验表明,该方法在四个基准数据集上取得了最先进的性能,验证了其有效性。
📝 摘要(中文)
组合零样本学习(CZSL)旨在基于从已知组合中学习到的知识来识别新的属性-对象组合。现有方法由于测试时标签空间分布偏移而导致性能下降,这种偏移源于包含由属性和对象重新组合而成的未知组合。为了克服这一挑战,我们提出了一种新方法,该方法从无监督数据中累积文本和视觉模态的综合知识,以在测试时更新多模态原型。在此基础上,我们进一步设计了一种自适应更新权重来控制原型调整的程度,使模型能够在测试期间灵活地适应分布偏移。此外,引入了一个动态优先级队列,用于存储高置信度的图像,以便从历史图像中获取视觉知识以进行推理。考虑到多模态知识的语义一致性,我们通过多模态协同表示学习来对齐文本和视觉原型。大量实验表明,我们的方法在封闭世界和开放世界设置下的四个基准数据集上都取得了最先进的性能。
🔬 方法详解
问题定义:组合零样本学习(CZSL)旨在识别未见过的属性-对象组合。现有方法的痛点在于,测试阶段会遇到由已知属性和对象组成的新组合,导致标签空间分布发生偏移,模型泛化能力下降。模型难以适应这种新的分布,导致识别精度降低。
核心思路:TOMCAT的核心思路是在测试阶段,利用无监督数据持续累积知识,动态更新模型的原型表示。通过这种方式,模型可以逐步适应新的分布,从而提高对未见组合的识别能力。自适应更新权重控制更新幅度,避免过度拟合。
技术框架:TOMCAT包含以下主要模块:1) 多模态原型表示:为每个属性和对象学习文本和视觉原型。2) 测试时知识累积:利用无监督数据,通过多模态协同表示学习,更新文本和视觉原型。3) 自适应更新权重:根据数据置信度动态调整原型更新的幅度。4) 动态优先级队列:存储高置信度图像,用于从历史图像中获取视觉知识。
关键创新:TOMCAT的关键创新在于测试时知识累积和自适应更新权重。传统的CZSL方法在训练完成后模型参数固定,无法适应测试时的分布变化。TOMCAT通过在测试时持续学习,使模型能够动态适应新的数据分布,显著提升了泛化能力。自适应更新权重则平衡了新知识的学习和已有知识的保留。
关键设计:自适应更新权重的设计至关重要,它基于图像的置信度来动态调整更新幅度。高置信度的图像具有更大的更新权重,有助于模型快速适应新的分布。多模态协同表示学习通过对齐文本和视觉原型,保证了知识的语义一致性。动态优先级队列则允许模型回顾历史经验,避免遗忘重要信息。
📊 实验亮点
TOMCAT在四个基准数据集上取得了state-of-the-art的性能,显著优于现有方法。在封闭世界和开放世界设置下均表现出色,验证了其在不同场景下的泛化能力。实验结果表明,测试时知识累积和自适应更新权重是提升性能的关键因素。
🎯 应用场景
该研究成果可应用于图像识别、目标检测、机器人导航等领域,尤其是在数据分布不断变化的场景下。例如,在自动驾驶中,车辆需要识别各种未曾见过的物体组合,TOMCAT可以帮助提高识别的准确性和鲁棒性。未来,该方法还可以扩展到其他模态数据,如语音和文本,实现更广泛的应用。
📄 摘要(原文)
Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual knowledge from historical images for inference. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. Code will be available at https://github.com/xud-yan/TOMCAT .