A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR

📄 arXiv: 2604.00725v1 📥 PDF

作者: Merveilles Agbeti-messan, Thierry Paquet, Clément Chatelain, Pierrick Tranouez, Stéphane Nicolas

分类: cs.CV, cs.LG

发布日期: 2026-04-01


💡 一句话要点

提出基于状态空间模型的OCR架构,在历史报纸识别中实现效率与精度平衡。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: OCR 状态空间模型 Mamba 历史报纸 长文本序列 文化遗产数字化 序列建模

📋 核心要点

  1. Transformer在OCR中面临长文本处理的二次复杂度瓶颈,限制了其在段落级转录和大规模部署中的效率。
  2. 论文提出首个基于状态空间模型(SSM)的OCR架构,利用Mamba的线性时间复杂度优势,提升OCR效率。
  3. 实验表明,Mamba模型在保持精度竞争力的同时,显著降低了推理时间和内存占用,尤其是在处理退化严重的文本时。

📝 摘要(中文)

针对历史报纸OCR中长文本序列、退化的打印质量和复杂版式带来的挑战,本文提出了一种基于线性时间状态空间模型(SSM),特别是Mamba的OCR架构,作为Transformer的可扩展替代方案。该架构结合了CNN视觉编码器与双向和自回归Mamba序列建模。通过大规模基准测试,将SSM与Transformer和BiLSTM模型进行比较,评估了CTC、自回归和非自回归等多种解码策略。实验结果表明,所有神经模型均实现了较低的错误率(约2% CER),计算效率成为主要区分因素。Mamba模型在保持竞争力的同时,推理时间减半,内存扩展性更优(1.26x vs 2.30x)。在严重退化的段落级别,Mamba模型达到6.07% CER,而DAN为5.24%,但Mamba速度快2.05倍。代码、训练模型和标准化评估协议已发布,以促进可重复研究和指导大规模文化遗产OCR的应用。

🔬 方法详解

问题定义:历史报纸OCR面临长文本序列、退化打印质量和复杂版式等挑战,现有基于Transformer的OCR模型虽然精度高,但计算复杂度高,难以高效处理长文本,限制了其在大规模应用中的部署。现有方法的痛点在于计算效率和内存占用,尤其是在处理段落级别的文本时。

核心思路:论文的核心思路是利用状态空间模型(SSM),特别是Mamba的线性时间复杂度特性,替代Transformer中的自注意力机制,从而降低计算成本,提高处理长文本的效率。Mamba在处理长序列时具有更好的扩展性,能够在保证精度的情况下,显著减少推理时间和内存占用。

技术框架:该OCR架构主要包含两个模块:CNN视觉编码器和Mamba序列建模。首先,CNN视觉编码器用于提取输入图像的视觉特征。然后,将提取的特征输入到双向和自回归的Mamba序列模型中进行序列建模,从而预测文本序列。最后,使用不同的解码策略(CTC、自回归和非自回归)将序列模型的输出转换为最终的文本结果。

关键创新:最重要的技术创新点在于将状态空间模型(SSM),特别是Mamba,引入到OCR任务中,并构建了首个基于SSM的OCR架构。与Transformer相比,Mamba具有线性时间复杂度,能够更高效地处理长文本序列,从而降低计算成本,提高推理速度。

关键设计:论文评估了多种解码策略,包括CTC、自回归和非自回归解码。在网络结构方面,采用了CNN作为视觉编码器,并结合双向和自回归的Mamba序列模型。具体的参数设置和损失函数等技术细节在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Mamba的OCR模型在保持与Transformer和BiLSTM模型相当的精度水平下,显著降低了推理时间和内存占用。具体来说,Mamba模型在推理时间上减半,内存扩展性提升至1.26x(相比之下,Transformer为2.30x)。在严重退化的段落级别,Mamba模型达到6.07% CER,略高于DAN的5.24%,但速度快2.05倍。

🎯 应用场景

该研究成果可应用于大规模历史文献数字化、古籍修复、图书馆自动化等领域。通过提高OCR的效率和可扩展性,能够加速文化遗产的保护和利用,为历史研究提供更便捷的工具。未来,该技术还可扩展到其他需要处理长文本序列的OCR任务中,例如手写文档识别、票据识别等。

📄 摘要(原文)

End-to-end OCR for historical newspapers remains challenging, as models must handle long text sequences, degraded print quality, and complex layouts. While Transformer-based recognizers dominate current research, their quadratic complexity limits efficient paragraph-level transcription and large-scale deployment. We investigate linear-time State-Space Models (SSMs), specifically Mamba, as a scalable alternative to Transformer-based sequence modeling for OCR. We present to our knowledge, the first OCR architecture based on SSMs, combining a CNN visual encoder with bi-directional and autoregressive Mamba sequence modeling, and conduct a large-scale benchmark comparing SSMs with Transformer- and BiLSTM-based recognizers. Multiple decoding strategies (CTC, autoregressive, and non-autoregressive) are evaluated under identical training conditions alongside strong neural baselines (VAN, DAN, DANIEL) and widely used off-the-shelf OCR engines (PERO-OCR, Tesseract OCR, TrOCR, Gemini). Experiments on historical newspapers from the Bibliothèque nationale du Luxembourg, with newly released >99% verified gold-standard annotations, and cross-dataset tests on Fraktur and Antiqua lines, show that all neural models achieve low error rates (~2% CER), making computational efficiency the main differentiator. Mamba-based models maintain competitive accuracy while halving inference time and exhibiting superior memory scaling (1.26x vs 2.30x growth at 1000 chars), reaching 6.07% CER at the severely degraded paragraph level compared to 5.24% for DAN, while remaining 2.05x faster. We release code, trained models, and standardized evaluation protocols to enable reproducible research and guide practitioners in large-scale cultural heritage OCR.