A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR

作者: Merveilles Agbeti-messan, Thierry Paquet, Clément Chatelain, Pierrick Tranouez, Stéphane Nicolas

分类: cs.CV, cs.LG

发布日期: 2026-04-01

💡 一句话要点

提出基于状态空间模型的OCR架构，在历史报纸识别中实现效率与精度平衡。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: OCR 状态空间模型 Mamba 历史报纸 长文本序列 文化遗产数字化 序列建模

📋 核心要点

Transformer在OCR中面临长文本处理的二次复杂度瓶颈，限制了其在段落级转录和大规模部署中的效率。
论文提出首个基于状态空间模型（SSM）的OCR架构，利用Mamba的线性时间复杂度优势，提升OCR效率。
实验表明，Mamba模型在保持精度竞争力的同时，显著降低了推理时间和内存占用，尤其是在处理退化严重的文本时。

📝 摘要（中文）

针对历史报纸OCR中长文本序列、退化的打印质量和复杂版式带来的挑战，本文提出了一种基于线性时间状态空间模型（SSM），特别是Mamba的OCR架构，作为Transformer的可扩展替代方案。该架构结合了CNN视觉编码器与双向和自回归Mamba序列建模。通过大规模基准测试，将SSM与Transformer和BiLSTM模型进行比较，评估了CTC、自回归和非自回归等多种解码策略。实验结果表明，所有神经模型均实现了较低的错误率（约2% CER），计算效率成为主要区分因素。Mamba模型在保持竞争力的同时，推理时间减半，内存扩展性更优（1.26x vs 2.30x）。在严重退化的段落级别，Mamba模型达到6.07% CER，而DAN为5.24%，但Mamba速度快2.05倍。代码、训练模型和标准化评估协议已发布，以促进可重复研究和指导大规模文化遗产OCR的应用。

🔬 方法详解

问题定义：历史报纸OCR面临长文本序列、退化打印质量和复杂版式等挑战，现有基于Transformer的OCR模型虽然精度高，但计算复杂度高，难以高效处理长文本，限制了其在大规模应用中的部署。现有方法的痛点在于计算效率和内存占用，尤其是在处理段落级别的文本时。

核心思路：论文的核心思路是利用状态空间模型（SSM），特别是Mamba的线性时间复杂度特性，替代Transformer中的自注意力机制，从而降低计算成本，提高处理长文本的效率。Mamba在处理长序列时具有更好的扩展性，能够在保证精度的情况下，显著减少推理时间和内存占用。

技术框架：该OCR架构主要包含两个模块：CNN视觉编码器和Mamba序列建模。首先，CNN视觉编码器用于提取输入图像的视觉特征。然后，将提取的特征输入到双向和自回归的Mamba序列模型中进行序列建模，从而预测文本序列。最后，使用不同的解码策略（CTC、自回归和非自回归）将序列模型的输出转换为最终的文本结果。

关键创新：最重要的技术创新点在于将状态空间模型（SSM），特别是Mamba，引入到OCR任务中，并构建了首个基于SSM的OCR架构。与Transformer相比，Mamba具有线性时间复杂度，能够更高效地处理长文本序列，从而降低计算成本，提高推理速度。

关键设计：论文评估了多种解码策略，包括CTC、自回归和非自回归解码。在网络结构方面，采用了CNN作为视觉编码器，并结合双向和自回归的Mamba序列模型。具体的参数设置和损失函数等技术细节在论文中没有详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于Mamba的OCR模型在保持与Transformer和BiLSTM模型相当的精度水平下，显著降低了推理时间和内存占用。具体来说，Mamba模型在推理时间上减半，内存扩展性提升至1.26x（相比之下，Transformer为2.30x）。在严重退化的段落级别，Mamba模型达到6.07% CER，略高于DAN的5.24%，但速度快2.05倍。

🎯 应用场景

该研究成果可应用于大规模历史文献数字化、古籍修复、图书馆自动化等领域。通过提高OCR的效率和可扩展性，能够加速文化遗产的保护和利用，为历史研究提供更便捷的工具。未来，该技术还可扩展到其他需要处理长文本序列的OCR任务中，例如手写文档识别、票据识别等。

📄 摘要（原文）

End-to-end OCR for historical newspapers remains challenging, as models must handle long text sequences, degraded print quality, and complex layouts. While Transformer-based recognizers dominate current research, their quadratic complexity limits efficient paragraph-level transcription and large-scale deployment. We investigate linear-time State-Space Models (SSMs), specifically Mamba, as a scalable alternative to Transformer-based sequence modeling for OCR. We present to our knowledge, the first OCR architecture based on SSMs, combining a CNN visual encoder with bi-directional and autoregressive Mamba sequence modeling, and conduct a large-scale benchmark comparing SSMs with Transformer- and BiLSTM-based recognizers. Multiple decoding strategies (CTC, autoregressive, and non-autoregressive) are evaluated under identical training conditions alongside strong neural baselines (VAN, DAN, DANIEL) and widely used off-the-shelf OCR engines (PERO-OCR, Tesseract OCR, TrOCR, Gemini). Experiments on historical newspapers from the Bibliothèque nationale du Luxembourg, with newly released >99% verified gold-standard annotations, and cross-dataset tests on Fraktur and Antiqua lines, show that all neural models achieve low error rates (~2% CER), making computational efficiency the main differentiator. Mamba-based models maintain competitive accuracy while halving inference time and exhibiting superior memory scaling (1.26x vs 2.30x growth at 1000 chars), reaching 6.07% CER at the severely degraded paragraph level compared to 5.24% for DAN, while remaining 2.05x faster. We release code, trained models, and standardized evaluation protocols to enable reproducible research and guide practitioners in large-scale cultural heritage OCR.

A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理