Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI

📄 arXiv: 2312.10586v1 📥 PDF

作者: Qinqian Lei, Bo Wang, Robby T. Tan

分类: cs.CV

发布日期: 2023-12-17

备注: 9 pages, 4 figures


💡 一句话要点

针对Bongard-HOI,提出基于增强标签不确定查询的少样本学习方法

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 少样本学习 人体-物体交互 HOI检测 数据增强 伪标签 平均教师模型 标签不确定性

📋 核心要点

  1. 现有少样本HOI检测方法在数据有限的情况下,难以提取具有代表性的特征,且易受查询图像与类别外图像视觉相似性的干扰。
  2. 通过引入标签不确定查询增强技术,增加查询输入的多样性,并利用伪标签生成技术,使模型能够从增强数据中学习。
  3. 实验结果表明,该方法在Bongard-HOI和HICO-FS数据集上均取得了显著的性能提升,刷新了SOTA。

📝 摘要(中文)

本文针对少样本人体-物体交互(HOI)检测的挑战,特别是Bongard-HOI基准测试中的问题,提出了一种新的方法。现有元学习方法难以提取代表性特征,而现有少样本HOI模型依赖于HOI文本标签。此外,查询图像可能与类别外的图像具有视觉相似性,增加了学习难度。本文引入了标签不确定查询增强技术,以增强查询输入的多样性,从而更好地区分正负HOI类别。由于增强输入可能具有与原始输入不同的类别标签,因此其类别标签是未知的。属于不同类别的增强样本由于其与原始样本的视觉相似性而成为困难样本。此外,本文还引入了一种伪标签生成技术,使平均教师模型能够从增强的标签不确定输入中学习。通过增强学生模型的负支持集来丰富语义信息,从而促进多样性,挑战和增强学生的学习。实验结果表明,该方法在Bongard-HOI基准测试中实现了68.74%的准确率,超过了现有SOTA的66.59%,并在HICO-FS数据集上取得了73.27%的准确率,优于之前的SOTA 71.20%。

🔬 方法详解

问题定义:论文旨在解决少样本HOI检测问题,特别是在Bongard-HOI这种具有挑战性的基准上。现有方法在样本数量有限的情况下,难以提取鲁棒的特征,并且容易受到查询图像与负样本之间视觉相似性的干扰,导致分类性能下降。

核心思路:论文的核心思路是通过增强查询图像的多样性,特别是引入“标签不确定”的增强样本,来提高模型的泛化能力和区分能力。同时,利用伪标签技术,让模型能够从这些标签不确定的数据中学习,从而克服数据稀缺的问题。

技术框架:整体框架包含以下几个主要模块:1) 查询图像增强模块,生成标签不确定的增强样本;2) 伪标签生成模块,利用平均教师模型为增强样本生成伪标签;3) 学生模型训练模块,利用原始数据和增强数据进行训练,并增强负支持集;4) 分类器,对HOI类别进行预测。

关键创新:最重要的技术创新点在于“标签不确定查询增强”策略。与传统的增强方法不同,该方法生成的增强样本可能属于不同的类别,从而增加了训练的难度,但也提高了模型的鲁棒性。此外,结合平均教师模型进行伪标签生成,进一步提高了模型的学习效率。

关键设计:论文中关键的设计包括:1) 增强策略的选择,如何生成既具有挑战性,又不会引入过多噪声的增强样本;2) 平均教师模型的训练方式,如何保证伪标签的质量;3) 损失函数的设计,如何平衡原始数据和增强数据之间的权重;4) 负支持集的增强方式,如何选择合适的负样本来提高模型的区分能力。

📊 实验亮点

该方法在Bongard-HOI基准测试中取得了68.74%的准确率,相比之前的SOTA(66.59%)提升了2.15%。在更通用的少样本识别数据集HICO-FS上,该方法在5-way 5-shot任务中取得了73.27%的准确率,超过了之前的SOTA(71.20%)。实验结果表明,该方法在少样本HOI检测任务中具有显著的优势。

🎯 应用场景

该研究成果可应用于机器人、智能监控、自动驾驶等领域,提升机器对复杂场景中人与物体交互行为的理解和识别能力。通过少样本学习,可以快速适应新的场景和交互类型,降低标注成本,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Detecting human-object interactions (HOI) in a few-shot setting remains a challenge. Existing meta-learning methods struggle to extract representative features for classification due to the limited data, while existing few-shot HOI models rely on HOI text labels for classification. Moreover, some query images may display visual similarity to those outside their class, such as similar backgrounds between different HOI classes. This makes learning more challenging, especially with limited samples. Bongard-HOI (Jiang et al. 2022) epitomizes this HOI few-shot problem, making it the benchmark we focus on in this paper. In our proposed method, we introduce novel label-uncertain query augmentation techniques to enhance the diversity of the query inputs, aiming to distinguish the positive HOI class from the negative ones. As these augmented inputs may or may not have the same class label as the original inputs, their class label is unknown. Those belonging to a different class become hard samples due to their visual similarity to the original ones. Additionally, we introduce a novel pseudo-label generation technique that enables a mean teacher model to learn from the augmented label-uncertain inputs. We propose to augment the negative support set for the student model to enrich the semantic information, fostering diversity that challenges and enhances the student's learning. Experimental results demonstrate that our method sets a new state-of-the-art (SOTA) performance by achieving 68.74% accuracy on the Bongard-HOI benchmark, a significant improvement over the existing SOTA of 66.59%. In our evaluation on HICO-FS, a more general few-shot recognition dataset, our method achieves 73.27% accuracy, outperforming the previous SOTA of 71.20% in the 5-way 5-shot task.