Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

📄 arXiv: 2603.02663v1 📥 PDF

作者: Shunki Uebayashi, Kento Masui, Kyohei Atarashi, Han Bao, Hisashi Kashima, Naoto Inoue, Mayu Otani, Koh Takeuchi

分类: cs.CL, cs.CV

发布日期: 2026-03-03

备注: 24pages, 20 figures, accepted to ICLR2026


💡 一句话要点

提出多模态项目反应理论(M3IRT)框架,用于评估多模态大语言模型的跨模态推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 跨模态推理 项目反应理论 大语言模型 基准测试

📋 核心要点

  1. 现有MLLM基准测试包含大量仅依赖单模态信息即可解决的“捷径问题”,导致评估结果不可靠,且增加了计算成本。
  2. 提出多模态多维项目反应理论(M3IRT)框架,将模型能力和题目难度分解为图像、文本和跨模态三个维度。
  3. 实验表明,M3IRT能有效识别并优先选择真正的跨模态问题,在降低评估成本的同时,保持模型排名的一致性。

📝 摘要(中文)

多模态大语言模型(MLLM)已成为能够对不同模态进行推理的通用架构。MLLM的基准测试应衡量其跨模态整合能力。然而,当前的基准测试中充斥着捷径问题,这些问题仅使用单一模态即可解决,从而导致不可靠的排名。例如,在视觉-语言案例中,我们可以在没有图像或文本的情况下找到正确答案。这些低质量的问题不必要地增加了基准测试的规模和计算需求。我们引入了一个多模态和多维项目反应理论框架(M3IRT),通过将模型能力和项目难度分解为仅图像、仅文本和跨模态组件来扩展经典IRT。M3IRT估计MLLM的跨模态能力和每个问题的跨模态难度,从而实现紧凑、高质量的子集,更好地反映多模态推理。在三个基准测试上的24个VLM中,M3IRT优先考虑真正的跨模态问题而不是捷径,即使50%的项目是人为生成的低质量问题,也能保持排名保真度,从而降低评估成本,同时提高可靠性。因此,M3IRT为评估跨模态推理和改进多模态基准测试提供了一个实用的工具。

🔬 方法详解

问题定义:当前多模态大语言模型(MLLM)的评估基准存在缺陷,即包含大量可以通过单一模态信息(例如,仅图像或仅文本)解决的“捷径问题”。这些问题导致评估结果无法真实反映模型的跨模态推理能力,并且增加了不必要的计算开销。现有方法难以有效区分和筛选出真正需要跨模态推理的问题。

核心思路:论文的核心思路是将经典的项目反应理论(IRT)扩展到多模态和多维的场景。通过将模型的能力和题目的难度分解为图像、文本和跨模态三个独立的维度,从而能够更精确地评估模型在跨模态推理方面的能力,并识别出那些真正需要跨模态信息才能解决的问题。

技术框架:M3IRT框架主要包含以下几个步骤:1) 数据收集:收集包含图像和文本的多模态数据集,并标注问题的答案。2) 模型训练:使用MLLM在数据集上进行训练。3) M3IRT分析:利用M3IRT模型对MLLM的能力和题目的难度进行分解,得到图像能力、文本能力和跨模态能力/难度。4) 问题筛选:根据M3IRT分析的结果,筛选出跨模态难度较高的题目,构建高质量的评估子集。

关键创新:M3IRT的关键创新在于将项目反应理论扩展到多模态领域,并引入了多维度的能力和难度评估。这使得能够更细粒度地分析MLLM在不同模态上的表现,并识别出真正需要跨模态推理的问题。与现有方法相比,M3IRT能够更准确地评估MLLM的跨模态推理能力,并构建更具代表性的评估基准。

关键设计:M3IRT模型使用多维IRT模型,将模型的能力和题目的难度分解为多个维度。具体来说,模型的能力被分解为图像能力、文本能力和跨模态能力,题目的难度被分解为图像难度、文本难度和跨模态难度。模型使用极大似然估计方法来估计这些参数。此外,论文还设计了一种基于M3IRT的题目筛选算法,用于选择跨模态难度较高的题目,构建高质量的评估子集。具体参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,M3IRT能够有效识别并优先选择真正的跨模态问题,即使在基准测试中包含50%的低质量“捷径问题”时,也能保持模型排名的一致性。这表明M3IRT能够显著降低评估成本,同时提高评估的可靠性。具体性能提升数据未知。

🎯 应用场景

M3IRT框架可应用于多模态大语言模型的评估与基准测试构建,帮助研究者更准确地衡量模型的跨模态推理能力。该方法能够有效降低评估成本,提升评估效率,并为模型优化提供更可靠的反馈。未来,M3IRT有望推广到更多模态组合和更复杂的推理任务中。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently emerged as general architectures capable of reasoning over diverse modalities. Benchmarks for MLLMs should measure their ability for cross-modal integration. However, current benchmarks are filled with shortcut questions, which can be solved using only a single modality, thereby yielding unreliable rankings. For example, in vision-language cases, we can find the correct answer without either the image or the text. These low-quality questions unnecessarily increase the size and computational requirements of benchmarks. We introduce a multi-modal and multidimensional item response theory framework (M3IRT) that extends classical IRT by decomposing both model ability and item difficulty into image-only, text-only, and cross-modal components. M3IRT estimates cross-modal ability of MLLMs and each question's cross-modal difficulty, enabling compact, high-quality subsets that better reflect multimodal reasoning. Across 24 VLMs on three benchmarks, M3IRT prioritizes genuinely cross-modal questions over shortcuts and preserves ranking fidelity even when 50% of items are artificially generated low-quality questions, thereby reducing evaluation cost while improving reliability. M3IRT thus offers a practical tool for assessing cross-modal reasoning and refining multimodal benchmarks.