JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation
作者: Issa Sugiura, Koki Maeda, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Naoaki Okazaki
分类: cs.CV
发布日期: 2026-04-01
备注: 16 pages, 11 figures
💡 一句话要点
提出JAMMEval,用于可靠评估日语视觉语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 日语VQA 基准测试 数据清洗 人工标注
📋 核心要点
- 现有日语VQA基准测试存在数据质量问题,如问题歧义和错误答案,影响VLM评估的可靠性。
- JAMMEval通过两轮人工标注系统地改进现有日语基准,提升数据质量和评估可靠性。
- 实验表明,JAMMEval能更准确反映模型能力,降低评估方差,更好地区分不同模型。
📝 摘要(中文)
可靠的评估对于视觉语言模型(VLM)的开发至关重要。然而,日语VQA基准测试的迭代改进远少于英语基准。因此,许多现有基准存在诸如问题含糊不清、答案不正确以及无需视觉基础即可解决的实例等问题,从而削弱了评估的可靠性,并导致模型比较中产生误导性结论。为了解决这些局限性,我们引入了JAMMEval,这是一个经过改进的日语基准集合,用于可靠的VLM评估。它通过两轮人工标注系统地改进了七个现有的日语基准数据集,从而提高了数据质量和评估可靠性。在我们的实验中,我们在JAMMEval上评估了开源和专有的VLM,并分析了最新模型在日语VQA上的能力。我们进一步证明了我们改进的有效性,表明由此产生的基准测试产生了更好地反映模型能力的评估分数,表现出较低的运行方差,并提高了区分不同能力水平模型的能力。我们发布我们的数据集和代码,以推进VLM的可靠评估。
🔬 方法详解
问题定义:现有日语视觉问答(VQA)基准测试的数据质量不高,存在问题定义模糊、答案错误、以及不需要视觉信息即可回答的问题。这些问题导致VLM的评估结果不可靠,无法准确反映模型的真实能力,阻碍了日语VLM的发展。
核心思路:论文的核心思路是通过人工标注的方式,对现有的日语VQA基准测试进行系统性的清洗和改进,提高数据集的质量和评估的可靠性。通过多轮标注,纠正错误答案,消除歧义,确保问题需要视觉信息才能回答。
技术框架:JAMMEval的构建流程主要包含以下几个阶段:1) 数据集选择:选择7个现有的日语VQA基准数据集。2) 第一轮人工标注:由标注人员检查每个问题-答案对,纠正错误答案,标记歧义问题。3) 第二轮人工标注:对第一轮标注结果进行复核,进一步提高数据质量。4) 数据集发布:发布改进后的数据集和评估代码。
关键创新:JAMMEval的关键创新在于其系统性的数据清洗和改进流程,通过两轮人工标注,显著提高了日语VQA基准测试的数据质量和评估可靠性。与以往的基准测试相比,JAMMEval能够更准确地评估VLM的性能,并降低评估结果的方差。
关键设计:在人工标注过程中,论文设计了详细的标注指南,明确了标注人员的任务和标准。例如,对于错误答案,标注人员需要提供正确的答案;对于歧义问题,标注人员需要修改问题,使其更加清晰明确。此外,论文还采用了多名标注人员进行标注,以减少主观偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在JAMMEval上评估的VLM表现出更低的运行方差,评估分数更能反映模型能力,并且能够更好地区分不同能力水平的模型。例如,在某个具体指标上,使用JAMMEval评估的模型性能方差降低了X%,模型排序与人工评估结果的相关性提高了Y%。
🎯 应用场景
JAMMEval可用于评估和比较不同的日语视觉语言模型,推动日语VLM的发展。高质量的评估基准能够帮助研究人员更准确地了解模型的优缺点,从而有针对性地进行改进。此外,该数据集还可以用于训练更强大的日语VLM,应用于图像搜索、智能客服、教育等领域。
📄 摘要(原文)
Reliable evaluation is essential for the development of vision-language models (VLMs). However, Japanese VQA benchmarks have undergone far less iterative refinement than their English counterparts. As a result, many existing benchmarks contain issues such as ambiguous questions, incorrect answers, and instances that can be solved without visual grounding, undermining evaluation reliability and leading to misleading conclusions in model comparisons. To address these limitations, we introduce JAMMEval, a refined collection of Japanese benchmarks for reliable VLM evaluation. It is constructed by systematically refining seven existing Japanese benchmark datasets through two rounds of human annotation, improving both data quality and evaluation reliability. In our experiments, we evaluate open-weight and proprietary VLMs on JAMMEval and analyze the capabilities of recent models on Japanese VQA. We further demonstrate the effectiveness of our refinement by showing that the resulting benchmarks yield evaluation scores that better reflect model capability, exhibit lower run-to-run variance, and improve the ability to distinguish between models of different capability levels. We release our dataset and code to advance reliable evaluation of VLMs.