Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG
作者: Martin Asenov, Kenza Benkirane, Dan Goldwater, Aneiss Ghodsi
分类: cs.CL
发布日期: 2026-03-04
备注: ICLR 2026 Workshop I Can't Believe It's Not Better: Where Large Language Models Need to Improve
💡 一句话要点
重新评估多语言和视觉RAG中的基准差距:文档表示优于检索方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 RAG 多语言 视觉文档 文档表示 BM25 信息检索
📋 核心要点
- 现有RAG系统依赖端到端多模态检索器,声称在多语言和视觉文档上优于传统词汇方法,但其改进的真正驱动因素尚不明确。
- 该论文的核心思想是通过控制变量法,系统性地评估转录和预处理方法对检索性能的影响,从而分离文档表示和检索机制的作用。
- 实验结果表明,更好的文档表示(通过改进转录和预处理)是性能提升的关键,即使使用简单的BM25检索器也能取得显著效果。
📝 摘要(中文)
检索增强生成(RAG)是一种常见的将语言模型与外部文档和最新信息相结合的方法。传统的检索系统依赖于词汇方法,如BM25,它通过术语重叠和语料库级别的权重来对文档进行排序。在大型查询-文档数据集上训练的端到端多模态检索器声称,与这些方法相比,尤其是在具有复杂视觉布局的多语言文档方面,有显著的改进。本文证明,更好的文档表示是基准改进的主要驱动因素。通过系统地改变转录和预处理方法,同时保持检索机制不变,我们证明BM25可以弥补多语言和视觉基准上的巨大差距。我们的研究结果呼吁分解评估基准,分别衡量转录和检索能力,使该领域能够正确地评估进展并将精力集中在重要的地方。
🔬 方法详解
问题定义:现有端到端多模态检索器在多语言和视觉文档上的优越性被广泛接受,但这种优越性是来自于更先进的检索机制,还是仅仅因为它们学习了更好的文档表示?现有方法难以区分这两种因素,导致对RAG系统改进方向的误判。
核心思路:该论文的核心思路是通过控制变量法,将文档表示和检索机制解耦。具体来说,保持检索机制(BM25)不变,系统性地改变文档的转录和预处理方法,观察性能变化。如果性能提升主要来自于转录和预处理的改进,则说明文档表示是关键因素。
技术框架:该研究主要关注现有benchmark数据集上的实验分析,没有提出新的技术框架。其核心在于实验设计: 1. 选择现有的多语言和视觉RAG benchmark数据集。 2. 使用BM25作为检索器,保持不变。 3. 系统性地改变文档的转录和预处理方法,例如使用不同的OCR引擎、应用不同的文本清洗规则等。 4. 评估不同转录和预处理方法下的检索性能,并分析性能变化的原因。
关键创新:该论文的关键创新在于其研究方法,即通过控制变量法来解耦文档表示和检索机制。这种方法能够更清晰地揭示RAG系统中各个组件的作用,避免将性能提升错误地归因于检索机制的改进。
关键设计:该论文没有涉及具体的模型参数或损失函数设计。其关键在于实验设计,包括选择合适的benchmark数据集、设计合理的转录和预处理方法、以及选择合适的评估指标。具体的技术细节取决于所使用的benchmark数据集和转录/预处理方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过改进文档的转录和预处理,即使使用简单的BM25检索器,也能在多语言和视觉RAG benchmark上取得显著的性能提升,甚至可以弥补与端到端多模态检索器之间的差距。这表明,更好的文档表示是性能提升的关键驱动因素。
🎯 应用场景
该研究成果对RAG系统的开发和评估具有重要意义。它强调了文档表示的重要性,并建议在评估RAG系统时,应分别衡量转录和检索能力。这有助于研究人员更准确地评估进展,并将精力集中在改进文档表示上,例如通过更先进的OCR技术或文本预处理方法。
📄 摘要(原文)
Retrieval-augmented generation (RAG) is a common way to ground language models in external documents and up-to-date information. Classical retrieval systems relied on lexical methods such as BM25, which rank documents by term overlap with corpus-level weighting. End-to-end multimodal retrievers trained on large query-document datasets claim substantial improvements over these approaches, especially for multilingual documents with complex visual layouts. We demonstrate that better document representation is the primary driver of benchmark improvements. By systematically varying transcription and preprocessing methods while holding the retrieval mechanism fixed, we demonstrate that BM25 can recover large gaps on multilingual and visual benchmarks. Our findings call for decomposed evaluation benchmarks that separately measure transcription and retrieval capabilities, enabling the field to correctly attribute progress and focus effort where it matters.