CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
作者: Jie Cai, Kangning Yang, Lan Fu, Jiaming Ding, Jinlong Li, Huiming Sun, Daitao Xing, Jinglin Shen, Zibo Meng
分类: cs.CV, cs.AI
发布日期: 2025-09-25
💡 一句话要点
提出CompareBench,用于评估视觉语言模型中的视觉比较推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 视觉比较推理 基准测试 多模态学习 问答系统
📋 核心要点
- 现有视觉语言模型在视觉比较推理方面存在不足,尤其是在时间、空间关系等复杂场景下。
- CompareBench基准包含数量、时间、几何和空间四个任务,旨在全面评估模型的视觉比较能力。
- 实验结果表明,即使是最先进的模型在视觉比较任务上仍存在明显局限性,有待进一步提升。
📝 摘要(中文)
本文提出了CompareBench,一个用于评估视觉语言模型(VLMs)中视觉比较推理能力的基准,这是一项基础但尚未充分研究的技能。CompareBench包含1000个QA对,涵盖四个任务:数量(600)、时间(100)、几何(200)和空间(100)。它源自我们构建的两个辅助数据集:TallyBench(包含2000个带有QA的计数图像)和HistCaps(包含515个带有双语字幕的历史图像)。我们评估了闭源API(OpenAI、Gemini、Claude)和开源模型(Qwen2.5-VL和Qwen3-VL系列)。结果显示出明显的扩展趋势,但也揭示了关键的局限性:即使是最强大的模型也始终无法进行时间排序和空间关系推理,并且它们经常在人类看来微不足道的基本计数和几何比较中犯错。这些发现表明,视觉比较仍然是当前VLM的一个系统性盲点。通过提供受控、多样化和诊断性评估,CompareBench为推进更可靠的多模态推理奠定了基础。
🔬 方法详解
问题定义:现有视觉语言模型(VLMs)在处理需要视觉比较推理的任务时表现不佳,尤其是在理解图像中的数量关系、时间顺序、几何形状和空间关系等方面。现有的基准测试可能无法充分评估这些能力,或者缺乏足够的多样性和控制性,难以诊断模型的具体弱点。
核心思路:本文的核心思路是构建一个专门用于评估VLMs视觉比较推理能力的基准测试集,即CompareBench。通过设计包含不同类型比较任务的QA对,并结合辅助数据集,可以更全面、深入地分析VLMs在视觉比较方面的优势和不足。
技术框架:CompareBench的构建包括以下几个主要阶段:1)定义比较任务类型:确定了数量、时间、几何和空间四个核心任务。2)构建辅助数据集:创建了TallyBench(用于计数)和HistCaps(用于历史图像理解)两个数据集,为CompareBench提供数据基础。3)生成QA对:基于辅助数据集,设计并生成了包含1000个QA对的CompareBench基准。4)模型评估:使用CompareBench评估了包括闭源API和开源模型在内的多种VLMs。
关键创新:CompareBench的关键创新在于其专注于视觉比较推理这一特定能力,并提供了多样化和控制性的评估。与现有的通用VQA基准相比,CompareBench更具针对性,能够更有效地诊断VLMs在视觉比较方面的弱点。此外,辅助数据集的构建也为基准测试提供了更丰富的数据来源。
关键设计:CompareBench包含四个任务:数量比较(例如,哪个图像中的物体更多?)、时间比较(例如,哪个事件发生在前?)、几何比较(例如,哪个形状更大?)、空间比较(例如,哪个物体在另一个物体的左边?)。每个任务都设计了相应的QA对,并控制了图像的复杂度和问题的难度。TallyBench包含2000个计数图像,HistCaps包含515个历史图像,这些数据集用于生成相应的QA对。
📊 实验亮点
实验结果表明,即使是最先进的视觉语言模型在CompareBench上的表现仍然不尽如人意,尤其是在时间排序和空间关系推理方面。例如,模型在时间比较任务上的准确率远低于人类水平,这表明当前模型在理解时间序列和空间关系方面存在明显的局限性。该基准测试揭示了现有模型在视觉比较推理方面的系统性盲点。
🎯 应用场景
CompareBench可用于评估和改进视觉语言模型在各种实际应用中的性能,例如智能监控、自动驾驶、机器人导航、图像检索和视觉辅助等。通过提高模型在视觉比较推理方面的能力,可以使其更好地理解和利用视觉信息,从而实现更智能、更可靠的应用。
📄 摘要(原文)
We introduce CompareBench, a benchmark for evaluating visual comparison reasoning in vision-language models (VLMs), a fundamental yet understudied skill. CompareBench consists of 1000 QA pairs across four tasks: quantity (600), temporal (100), geometric (200), and spatial (100). It is derived from two auxiliary datasets that we constructed: TallyBench (2000 counting images with QA) and HistCaps (515 historical images with bilingual captions). We evaluate both closed-source APIs (OpenAI, Gemini, Claude) and open-source models (Qwen2.5-VL and Qwen3-VL series). Results show clear scaling trends but also reveal critical limitations: even the strongest models consistently fail at temporal ordering and spatial relations, and they often make mistakes in basic counting and geometric comparisons that are trivial for humans. These findings demonstrate that visual comparison remains a systematic blind spot for current VLMs. By providing controlled, diverse, and diagnostic evaluation, CompareBench establishes a foundation for advancing more reliable multimodal reasoning.