Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

📄 arXiv: 2603.04346v1 📥 PDF

作者: Chris Vorster, Mayug Maniparambil, Noel E. O'Connor, Noel Murphy, Derek Molloy

分类: cs.CV

发布日期: 2026-03-04

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种单样本探针方法,用于预测VLFM在欠表示领域上的零样本精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 零样本学习 模型评估 反事实推理 单样本学习

📋 核心要点

  1. 现有VLFM在特定或欠表示领域表现不稳定,且缺乏低成本的评估方法。
  2. 利用大语言模型生成反事实描述,评估VLFM区分真实描述与反事实描述的能力。
  3. 仅需单样本图像即可预测VLFM零样本精度,在多个数据集上验证了有效性。

📝 摘要(中文)

大规模视觉-语言基础模型(VLFMs),如CLIP,已广泛应用于计算机视觉研究和应用。VLFMs通常被调整以适应各种特定领域的任务。然而,VLFM在新颖、专业或欠表示领域上的性能仍然不稳定。评估VLFMs通常需要带标签的测试集,而这些测试集对于感兴趣的利基领域,特别是来自全球南方地区的领域,往往是不可用的。为了解决这个问题,我们提出了一种高效的数据方法,仅使用每个类别的一张带标签图像来预测VLFM在目标领域上的零样本精度。我们的方法使用大型语言模型生成给定图像的合理反事实描述。通过测量VLFM区分正确描述与这些难负样本的能力,我们构建了能够捕捉VLFM在其共享嵌入空间中判别能力的特征。在一个线性回归器上训练这些相似性分数,可以估计VLFM在各种视觉领域上的零样本测试精度,皮尔逊相关系数为0.96。我们在五个不同的数据集上展示了我们方法的性能,包括标准基准数据集和来自非洲的欠表示数据集。我们的工作提供了一种低成本、可靠的VLFM探测工具,使研究人员和从业人员能够在投入大量资源之前,就数据标注工作做出明智的决策。模型训练代码、生成的标题和反事实描述已在此处发布:https://github.com/chris-vorster/PreLabellingProbe。

🔬 方法详解

问题定义:论文旨在解决视觉-语言基础模型(VLFM)在特定领域,尤其是欠表示领域,零样本性能评估的问题。现有方法通常需要大量的标注数据来评估VLFM的性能,这在数据稀缺的领域是不切实际的。因此,需要一种数据高效的方法来预测VLFM在这些领域上的表现,以便在投入大量资源进行数据标注之前做出明智的决策。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成给定图像的反事实描述,并基于VLFM区分真实描述和反事实描述的能力来评估其判别能力。如果VLFM能够很好地区分真实描述和反事实描述,则表明其在该领域具有较强的判别能力,从而可以预测其在该领域上的零样本性能。这种方法只需要每个类别的一张带标签图像,大大降低了数据需求。

技术框架:该方法主要包含以下几个步骤:1) 对于每个类别,选择一张带标签的图像。2) 使用大型语言模型(LLM)生成该图像的真实描述和多个反事实描述。反事实描述旨在模拟与真实描述相似但错误的描述,从而构成难负样本。3) 使用VLFM计算图像及其真实描述和反事实描述的嵌入向量。4) 计算图像嵌入向量与真实描述嵌入向量之间的相似度,以及图像嵌入向量与反事实描述嵌入向量之间的相似度。5) 基于这些相似度分数,构建特征向量,用于训练一个线性回归模型。6) 使用训练好的线性回归模型预测VLFM在目标领域上的零样本精度。

关键创新:该方法最重要的创新点在于利用大型语言模型生成反事实描述,从而构建难负样本,并基于VLFM区分真实描述和反事实描述的能力来评估其判别能力。与现有方法相比,该方法只需要每个类别的一张带标签图像,大大降低了数据需求,并且能够有效地预测VLFM在欠表示领域上的零样本性能。

关键设计:关键设计包括:1) 使用特定的大型语言模型(如GPT-3)生成高质量的反事实描述。2) 选择合适的相似度度量方法(如余弦相似度)来计算图像嵌入向量与文本嵌入向量之间的相似度。3) 使用线性回归模型作为预测器,因为它简单且易于训练,并且在实验中表现良好。4) 使用皮尔逊相关系数作为评估指标,衡量预测精度与实际精度之间的相关性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法仅使用单样本图像即可有效预测VLFM的零样本精度,在五个不同的数据集上实现了0.96的皮尔逊相关系数。该方法在标准基准数据集和来自非洲的欠表示数据集上均表现良好,验证了其在不同领域和数据分布下的泛化能力。

🎯 应用场景

该研究成果可应用于评估和选择适用于特定领域(尤其是数据稀缺领域)的视觉-语言基础模型。例如,在医学图像分析、遥感图像分析或特定工业场景中,可以利用该方法快速评估不同VLFM的性能,从而指导模型选择和数据标注工作,降低开发成本,加速应用落地。

📄 摘要(原文)

Large-scale Vision-Language Foundation Models (VLFMs), such as CLIP, now underpin a wide range of computer vision research and applications. VLFMs are often adapted to various domain-specific tasks. However, VLFM performance on novel, specialised, or underrepresented domains remains inconsistent. Evaluating VLFMs typically requires labelled test sets, which are often unavailable for niche domains of interest, particularly those from the Global South. We address this gap by proposing a highly data-efficient method to predict a VLFM's zero-shot accuracy on a target domain using only a single labelled image per class. Our approach uses a Large Language Model to generate plausible counterfactual descriptions of a given image. By measuring the VLFM's ability to distinguish the correct description from these hard negatives, we engineer features that capture the VLFM's discriminative power in its shared embedding space. A linear regressor trained on these similarity scores estimates the VLFM's zero-shot test accuracy across various visual domains with a Pearson-r correlation of 0.96. We demonstrate our method's performance across five diverse datasets, including standard benchmark datasets and underrepresented datasets from Africa. Our work provides a low-cost, reliable tool for probing VLFMs, enabling researchers and practitioners to make informed decisions about data annotation efforts before committing significant resources. The model training code, generated captions and counterfactuals are released here: https://github.com/chris-vorster/PreLabellingProbe.