Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

作者: Shunki Uebayashi, Kento Masui, Kyohei Atarashi, Han Bao, Hisashi Kashima, Naoto Inoue, Mayu Otani, Koh Takeuchi

分类: cs.CL, cs.CV

发布日期: 2026-03-03

备注: 24pages, 20 figures, accepted to ICLR2026

💡 一句话要点

提出多模态项目反应理论(M3IRT)框架，用于评估多模态大语言模型的跨模态推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 跨模态推理 项目反应理论 大语言模型 基准测试

📋 核心要点

现有MLLM基准测试包含大量仅依赖单模态信息即可解决的“捷径问题”，导致评估结果不可靠，且增加了计算成本。
提出多模态多维项目反应理论(M3IRT)框架，将模型能力和题目难度分解为图像、文本和跨模态三个维度。
实验表明，M3IRT能有效识别并优先选择真正的跨模态问题，在降低评估成本的同时，保持模型排名的一致性。

📝 摘要（中文）

多模态大语言模型(MLLM)已成为能够对不同模态进行推理的通用架构。MLLM的基准测试应衡量其跨模态整合能力。然而，当前的基准测试中充斥着捷径问题，这些问题仅使用单一模态即可解决，从而导致不可靠的排名。例如，在视觉-语言案例中，我们可以在没有图像或文本的情况下找到正确答案。这些低质量的问题不必要地增加了基准测试的规模和计算需求。我们引入了一个多模态和多维项目反应理论框架(M3IRT)，通过将模型能力和项目难度分解为仅图像、仅文本和跨模态组件来扩展经典IRT。M3IRT估计MLLM的跨模态能力和每个问题的跨模态难度，从而实现紧凑、高质量的子集，更好地反映多模态推理。在三个基准测试上的24个VLM中，M3IRT优先考虑真正的跨模态问题而不是捷径，即使50%的项目是人为生成的低质量问题，也能保持排名保真度，从而降低评估成本，同时提高可靠性。因此，M3IRT为评估跨模态推理和改进多模态基准测试提供了一个实用的工具。

🔬 方法详解

问题定义：当前多模态大语言模型(MLLM)的评估基准存在缺陷，即包含大量可以通过单一模态信息（例如，仅图像或仅文本）解决的“捷径问题”。这些问题导致评估结果无法真实反映模型的跨模态推理能力，并且增加了不必要的计算开销。现有方法难以有效区分和筛选出真正需要跨模态推理的问题。

核心思路：论文的核心思路是将经典的项目反应理论(IRT)扩展到多模态和多维的场景。通过将模型的能力和题目的难度分解为图像、文本和跨模态三个独立的维度，从而能够更精确地评估模型在跨模态推理方面的能力，并识别出那些真正需要跨模态信息才能解决的问题。

技术框架：M3IRT框架主要包含以下几个步骤：1) 数据收集：收集包含图像和文本的多模态数据集，并标注问题的答案。2) 模型训练：使用MLLM在数据集上进行训练。3) M3IRT分析：利用M3IRT模型对MLLM的能力和题目的难度进行分解，得到图像能力、文本能力和跨模态能力/难度。4) 问题筛选：根据M3IRT分析的结果，筛选出跨模态难度较高的题目，构建高质量的评估子集。

关键创新：M3IRT的关键创新在于将项目反应理论扩展到多模态领域，并引入了多维度的能力和难度评估。这使得能够更细粒度地分析MLLM在不同模态上的表现，并识别出真正需要跨模态推理的问题。与现有方法相比，M3IRT能够更准确地评估MLLM的跨模态推理能力，并构建更具代表性的评估基准。

关键设计：M3IRT模型使用多维IRT模型，将模型的能力和题目的难度分解为多个维度。具体来说，模型的能力被分解为图像能力、文本能力和跨模态能力，题目的难度被分解为图像难度、文本难度和跨模态难度。模型使用极大似然估计方法来估计这些参数。此外，论文还设计了一种基于M3IRT的题目筛选算法，用于选择跨模态难度较高的题目，构建高质量的评估子集。具体参数设置和损失函数细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，M3IRT能够有效识别并优先选择真正的跨模态问题，即使在基准测试中包含50%的低质量“捷径问题”时，也能保持模型排名的一致性。这表明M3IRT能够显著降低评估成本，同时提高评估的可靠性。具体性能提升数据未知。

🎯 应用场景

M3IRT框架可应用于多模态大语言模型的评估与基准测试构建，帮助研究者更准确地衡量模型的跨模态推理能力。该方法能够有效降低评估成本，提升评估效率，并为模型优化提供更可靠的反馈。未来，M3IRT有望推广到更多模态组合和更复杂的推理任务中。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have recently emerged as general architectures capable of reasoning over diverse modalities. Benchmarks for MLLMs should measure their ability for cross-modal integration. However, current benchmarks are filled with shortcut questions, which can be solved using only a single modality, thereby yielding unreliable rankings. For example, in vision-language cases, we can find the correct answer without either the image or the text. These low-quality questions unnecessarily increase the size and computational requirements of benchmarks. We introduce a multi-modal and multidimensional item response theory framework (M3IRT) that extends classical IRT by decomposing both model ability and item difficulty into image-only, text-only, and cross-modal components. M3IRT estimates cross-modal ability of MLLMs and each question's cross-modal difficulty, enabling compact, high-quality subsets that better reflect multimodal reasoning. Across 24 VLMs on three benchmarks, M3IRT prioritizes genuinely cross-modal questions over shortcuts and preserves ranking fidelity even when 50% of items are artificially generated low-quality questions, thereby reducing evaluation cost while improving reliability. M3IRT thus offers a practical tool for assessing cross-modal reasoning and refining multimodal benchmarks.

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理