OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

📄 arXiv: 2603.02789v1 📥 PDF

作者: Jiyuan Shen, Peiyue Yuan, Atin Ghosh, Yifan Mai, Daniel Dahlmeier

分类: cs.CL, cs.AI

发布日期: 2026-03-03


💡 一句话要点

通过大规模数据集,重新评估MLLM时代下文档信息抽取中OCR的必要性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档信息抽取 多模态大型语言模型 OCR 错误分析 基准测试

📋 核心要点

  1. 现有文档信息抽取方法依赖OCR,但其必要性在MLLM时代受到挑战,需要重新评估。
  2. 论文提出直接使用MLLM处理图像,并结合精心设计的模式、示例和指令来提升性能。
  3. 实验表明,对于强大的MLLM,仅图像输入可达到与OCR增强方法相当的性能。

📝 摘要(中文)

多模态大型语言模型(MLLMs)增强了自然语言处理的潜力。然而,它们对文档信息抽取的实际影响尚不清楚。特别是,仅使用MLLM的流程(虽然更简单)是否能真正与传统的OCR+MLLM设置相媲美,这一点仍不明朗。本文进行了一项大规模的基准研究,评估了各种开箱即用的MLLM在商业文档信息抽取方面的性能。为了检查和探索失败模式,我们提出了一个自动化的分层错误分析框架,该框架利用大型语言模型(LLMs)来系统地诊断错误模式。我们的研究结果表明,对于强大的MLLM来说,OCR可能不是必需的,因为仅图像输入可以实现与OCR增强方法相当的性能。此外,我们证明了精心设计的模式、示例和指令可以进一步提高MLLM的性能。我们希望这项工作能为推进文档信息抽取提供实践指导和有价值的见解。

🔬 方法详解

问题定义:论文旨在解决文档信息抽取任务中,是否必须依赖OCR的问题。传统方法通常采用OCR+MLLM的pipeline,但OCR步骤增加了复杂性和计算成本。论文质疑在MLLM能力日益强大的背景下,OCR是否仍然是必需的,并希望找到更简洁高效的解决方案。

核心思路:论文的核心思路是直接利用MLLM处理文档图像,避免使用OCR。通过精心设计的schema、exemplars和instructions,引导MLLM从图像中提取所需信息。这种方法旨在简化pipeline,并充分利用MLLM的视觉理解和推理能力。

技术框架:论文构建了一个基于MLLM的文档信息抽取pipeline,主要包括以下几个阶段:1) 输入文档图像;2) 使用MLLM直接处理图像,无需OCR预处理;3) 通过精心设计的schema定义需要提取的信息类型;4) 提供exemplars,即带有标注的示例图像,帮助MLLM理解任务;5) 使用instructions指导MLLM进行信息抽取;6) 输出提取的信息。此外,论文还提出了一个自动化的分层错误分析框架,用于系统地诊断错误模式。

关键创新:论文的关键创新在于直接利用MLLM进行文档信息抽取,避免了OCR步骤。这种方法简化了pipeline,并充分利用了MLLM的视觉理解和推理能力。此外,论文提出的自动化分层错误分析框架,可以系统地诊断错误模式,为进一步改进MLLM的性能提供指导。

关键设计:论文的关键设计包括:1) 精心设计的schema,用于定义需要提取的信息类型;2) 提供高质量的exemplars,帮助MLLM理解任务;3) 使用清晰明确的instructions,指导MLLM进行信息抽取。这些设计旨在提高MLLM的性能和准确性。具体的参数设置、损失函数、网络结构等技术细节在论文中没有详细描述,属于MLLM本身的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,对于强大的MLLM,仅使用图像输入可以达到与OCR增强方法相当的性能。通过精心设计的schema、exemplars和instructions,可以进一步提高MLLM的性能。这表明在MLLM时代,OCR可能不再是文档信息抽取的必需步骤。

🎯 应用场景

该研究成果可应用于各种文档信息抽取场景,如财务报表处理、合同审核、发票识别等。通过简化pipeline,降低计算成本,提高处理效率。未来可进一步探索如何利用MLLM进行更复杂的文档理解和推理任务。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) enhance the potential of natural language processing. However, their actual impact on document information extraction remains unclear. In particular, it is unclear whether an MLLM-only pipeline--while simpler--can truly match the performance of traditional OCR+MLLM setups. In this paper, we conduct a large-scale benchmarking study that evaluates various out-of-the-box MLLMs on business-document information extraction. To examine and explore failure modes, we propose an automated hierarchical error analysis framework that leverages large language models (LLMs) to diagnose error patterns systematically. Our findings suggest that OCR may not be necessary for powerful MLLMs, as image-only input can achieve comparable performance to OCR-enhanced approaches. Moreover, we demonstrate that carefully designed schema, exemplars, and instructions can further enhance MLLMs performance. We hope this work can offer practical guidance and valuable insight for advancing document information extraction.