Multimodal Large Language Models as Image Classifiers

作者: Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas

分类: cs.CV

发布日期: 2026-03-06

💡 一句话要点

通过修正评估协议与标注，提升多模态大语言模型在图像分类任务上的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像分类 评估协议 数据集标注 性能评估 ReGT数据集 人工辅助标注

📋 核心要点

现有多模态大语言模型图像分类性能评估协议存在缺陷，导致性能被高估或低估，无法真实反映模型能力。
通过分析并修正现有评估协议中的问题，例如无效输出丢弃、干扰选项干扰和输出映射不佳，提升评估的准确性。
在修正后的ReGT数据集上，MLLM性能显著提升，与监督模型的差距缩小，并可辅助人工标注，提高标注效率。

📝 摘要（中文）

多模态大语言模型(MLLM)的分类性能严重依赖于评估协议和ground truth的质量。现有研究在比较MLLM与监督模型及视觉-语言模型时，结论存在冲突。本文指出这些冲突源于高估或低估性能的评估协议。针对常见评估协议，本文识别并修复了关键问题：丢弃超出类别列表的模型输出、弱多项选择干扰项导致的结果膨胀，以及因输出映射不佳而导致开放世界设置性能不佳。此外，本文量化了常被忽略的设计选择（批量大小、图像顺序和文本编码器选择）的影响，表明它们会显著影响准确性。在ReGT（对625个ImageNet-1k类别进行的多标签重新标注）上的评估表明，MLLM从修正后的标签中获益最大（高达+10.8%），大大缩小了与监督模型之间的差距。因此，所报告的MLLM在分类方面的性能不佳，很大程度上是噪声ground truth和有缺陷的评估协议的产物，而不是真正的模型缺陷。对监督训练信号依赖较少的模型对标注质量最为敏感。最后，本文表明MLLM可以辅助人工标注者：在一个受控的案例研究中，标注者在约50%的困难案例中确认或整合了MLLM的预测，证明了它们在大规模数据集管理方面的潜力。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在图像分类任务中性能评估不准确的问题。现有评估协议存在多种缺陷，例如，将模型输出限制在预定义的类别列表中，导致模型无法表达其真实理解；多项选择题中的干扰项设置不合理，导致性能虚高；以及输出映射不佳，使得模型在开放世界设置下表现不佳。这些问题导致对MLLM性能的评估结果与实际能力不符，阻碍了模型的进一步发展。

核心思路：论文的核心思路是通过识别并修正现有评估协议中的缺陷，从而更准确地评估MLLM在图像分类任务中的性能。具体而言，论文关注三个主要问题：模型输出限制、干扰项设置和输出映射。通过改进这些方面，论文旨在提供一个更公平、更可靠的评估框架，从而更好地了解MLLM的真实能力。

技术框架：论文的技术框架主要包括以下几个部分：1) 分析现有评估协议的缺陷，包括模型输出限制、干扰项设置和输出映射问题。2) 提出修正方案，例如允许模型输出超出预定义类别列表的内容，设计更合理的干扰项，以及改进输出映射方法。3) 构建ReGT数据集，该数据集是对ImageNet-1k数据集的多标签重新标注版本，具有更准确的ground truth。4) 在ReGT数据集上评估MLLM的性能，并与现有评估结果进行比较，以验证修正方案的有效性。5) 进行人工标注实验，验证MLLM辅助人工标注的潜力。

关键创新：论文的关键创新在于识别并修正了多模态大语言模型图像分类评估协议中的多个重要缺陷。这些缺陷此前被忽视，导致对模型性能的评估结果存在偏差。通过修正这些缺陷，论文提供了一个更准确、更可靠的评估框架，从而更好地了解MLLM的真实能力。此外，论文还构建了ReGT数据集，该数据集具有更准确的ground truth，为MLLM的评估提供了更好的基础。

关键设计：论文的关键设计包括：1) 允许模型输出超出预定义类别列表的内容，从而避免限制模型的表达能力。2) 设计更合理的干扰项，避免多项选择题中的性能虚高。3) 改进输出映射方法，使得模型在开放世界设置下能够更好地表达其理解。4) 构建ReGT数据集，该数据集具有更准确的多标签标注，为MLLM的评估提供了更好的ground truth。5) 通过人工标注实验，验证MLLM辅助人工标注的潜力，并探索其在数据集管理方面的应用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过修正评估协议和标注，MLLM在ReGT数据集上的性能显著提升，最高可达+10.8%。修正后的评估结果更接近监督模型的性能，缩小了两者之间的差距。此外，人工标注实验表明，MLLM可以辅助标注者完成困难案例，在约50%的情况下，标注者会采纳或整合MLLM的预测结果。

🎯 应用场景

该研究成果可应用于改进多模态大语言模型的评估方法，推动模型在图像分类、目标检测、图像描述等领域的应用。修正后的评估协议能够更准确地反映模型性能，促进模型优化和算法创新。此外，MLLM辅助人工标注的应用，可大幅提升数据集构建效率和质量，加速人工智能技术的发展。

📄 摘要（原文）

Multimodal Large Language Models (MLLM) classification performance depends critically on evaluation protocol and ground truth quality. Studies comparing MLLMs with supervised and vision-language models report conflicting conclusions, and we show these conflicts stem from protocols that either inflate or underestimate performance. Across the most common evaluation protocols, we identify and fix key issues: model outputs that fall outside the provided class list and are discarded, inflated results from weak multiple-choice distractors, and an open-world setting that underperforms only due to poor output mapping. We additionally quantify the impact of commonly overlooked design choices - batch size, image ordering, and text encoder selection - showing they substantially affect accuracy. Evaluating on ReGT, our multilabel reannotation of 625 ImageNet-1k classes, reveals that MLLMs benefit most from corrected labels (up to +10.8%), substantially narrowing the perceived gap with supervised models. Much of the reported MLLMs underperformance on classification is thus an artifact of noisy ground truth and flawed evaluation protocol rather than genuine model deficiency. Models less reliant on supervised training signals prove most sensitive to annotation quality. Finally, we show that MLLMs can assist human annotators: in a controlled case study, annotators confirmed or integrated MLLMs predictions in approximately 50% of difficult cases, demonstrating their potential for large-scale dataset curation.

Multimodal Large Language Models as Image Classifiers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理