MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

📄 arXiv: 2603.05697v1 📥 PDF

作者: Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng

分类: cs.CV

发布日期: 2026-03-05


💡 一句话要点

MultiHaystack:构建大规模跨模态检索与推理基准,评估MLLM在复杂场景下的性能瓶颈。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 多模态推理 大型语言模型 基准测试 跨模态学习

📋 核心要点

  1. 现有MLLM基准测试通常侧重于单模态或小规模检索,无法真实反映现实世界中复杂的多模态信息检索与推理需求。
  2. MultiHaystack通过构建包含大规模异构多模态数据的检索基准,旨在评估MLLM在真实场景下的检索和推理能力。
  3. 实验结果表明,MLLM在提供正确证据时表现良好,但在大规模检索场景下性能显著下降,揭示了多模态检索是当前MLLM的瓶颈。

📝 摘要(中文)

多模态大型语言模型(MLLM)在评估文本、图像或视频理解的基准测试中表现出色。然而,这些设置并未评估一个关键的现实需求,即在推理之前从大型异构多模态语料库中检索相关证据。现有的大多数基准测试将检索限制在小型、单模态候选集,大大简化了搜索空间并夸大了端到端可靠性。为了解决这一差距,我们引入了MultiHaystack,这是第一个旨在评估大规模、跨模态条件下检索和推理的基准。MultiHaystack包含超过46,000个跨文档、图像和视频的多模态检索候选对象,以及747个开放但可验证的问题。每个问题都基于检索池中唯一的经过验证的证据项,需要跨模态的证据定位和细粒度推理。我们的研究发现,当提供相应的证据时,模型表现出竞争力,但当需要从完整语料库中检索该证据时,其性能会急剧下降。此外,即使是最强的检索器E5-V也仅达到40.8%的Recall@1,而最先进的MLLM(如GPT-5)在提供相应证据时的推理准确率从80.86%显著下降到top-5检索下的51.4%。这些结果表明,异构池上的多模态检索仍然是MLLM的主要瓶颈,MultiHaystack作为一个有价值的测试平台,突出了被小规模评估掩盖的潜在局限性,并促进了多模态系统中以检索为中心的进步。

🔬 方法详解

问题定义:现有MLLM基准测试通常使用小规模、单模态的数据集,无法充分评估模型在真实场景下的多模态信息检索和推理能力。现有方法在检索阶段的性能不足,严重影响了端到端的性能,尤其是在处理大规模、异构的多模态数据时。

核心思路:MultiHaystack的核心思路是构建一个大规模、异构的多模态数据集,包含文档、图像和视频等多种模态的数据,并设计一系列需要跨模态检索和推理的问题。通过评估模型在检索和推理两个阶段的性能,可以更全面地了解MLLM在复杂场景下的能力瓶颈。

技术框架:MultiHaystack基准测试包含以下几个关键组成部分:1) 大规模多模态检索语料库:包含超过46,000个文档、图像和视频。2) 开放式可验证问题:包含747个需要跨模态检索和推理的问题,每个问题都与语料库中的一个唯一的证据项相关联。3) 评估指标:使用Recall@K评估检索性能,使用准确率评估推理性能。整体流程是,给定一个问题,模型首先需要从语料库中检索相关证据,然后基于检索到的证据进行推理并给出答案。

关键创新:MultiHaystack的关键创新在于其大规模、异构的多模态数据集和需要跨模态检索和推理的问题设计。与现有基准测试相比,MultiHaystack更接近真实世界的应用场景,可以更有效地评估MLLM在复杂场景下的能力。此外,MultiHaystack还提供了一个统一的评估框架,可以方便地比较不同模型在检索和推理两个阶段的性能。

关键设计:MultiHaystack的数据集构建过程包括数据收集、数据清洗、问题生成和证据验证等步骤。问题生成过程采用人工标注和自动生成相结合的方式,确保问题的质量和多样性。证据验证过程采用多轮审核的方式,确保证据的准确性和可靠性。评估指标的选择考虑了检索和推理两个阶段的特点,使用Recall@K评估检索性能,使用准确率评估推理性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强的检索器E5-V在MultiHaystack上的Recall@1仅为40.8%。GPT-5在提供正确证据时的推理准确率为80.86%,但在top-5检索结果下的推理准确率下降到51.4%。这些结果表明,多模态检索是当前MLLM的主要瓶颈,MultiHaystack可以有效地揭示这一问题。

🎯 应用场景

MultiHaystack可用于评估和改进多模态大型语言模型在信息检索、问答系统、智能助手等领域的应用。通过该基准,研究人员可以更好地了解MLLM在处理复杂多模态数据时的能力瓶颈,并开发更有效的检索和推理算法,从而提升相关应用的性能和用户体验。

📄 摘要(原文)

Multimodal large language models (MLLMs) achieve strong performance on benchmarks that evaluate text, image, or video understanding separately. However, these settings do not assess a critical real-world requirement, which involves retrieving relevant evidence from large, heterogeneous multimodal corpora prior to reasoning. Most existing benchmarks restrict retrieval to small, single-modality candidate sets, substantially simplifying the search space and overstating end-to-end reliability. To address this gap, we introduce MultiHaystack, the first benchmark designed to evaluate both retrieval and reasoning under large-scale, cross-modal conditions. MultiHaystack comprises over 46,000 multimodal retrieval candidates across documents, images, and videos, along with 747 open yet verifiable questions. Each question is grounded in a unique validated evidence item within the retrieval pool, requiring evidence localization across modalities and fine-grained reasoning. In our study, we find that models perform competitively when provided with the corresponding evidence, but their performance drops sharply when required to retrieve that evidence from the full corpus. Additionally, even the strongest retriever, E5-V, achieves only 40.8% Recall@1, while state-of-the-art MLLMs such as GPT-5 experience a significant drop in reasoning accuracy from 80.86% when provided with the corresponding evidence to 51.4% under top-5 retrieval. These results indicate that multimodal retrieval over heterogeneous pools remains a primary bottleneck for MLLMs, positioning MultiHaystack as a valuable testbed that highlights underlying limitations obscured by small-scale evaluations and promotes retrieval-centric advances in multimodal systems.