Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities
作者: Maria Levchenko
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-10-08
备注: The First Workshop on Natural Language Processing and Language Models for Digital Humanities (LM4DH 2025). RANLP 2025
💡 一句话要点
提出历史文档OCR的LLM评估框架,解决时序偏差和特定时期错误问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 历史文档OCR 大型语言模型 评估框架 数字人文 字符识别
📋 核心要点
- 现有OCR评估指标无法有效衡量历史文档数字化中LLM的时序偏差和特定时期错误。
- 提出一种新的评估方法,包含历史字符保留率(HCPR)和古语插入率(AIR)等指标,并控制污染风险。
- 实验表明Gemini和Qwen模型优于传统OCR,但存在过度历史化问题,且后处理校正效果不佳。
📝 摘要(中文)
数字人文领域的学者越来越多地使用大型语言模型进行历史文档数字化,但缺乏针对基于LLM的OCR的适当评估框架。传统的评估指标无法捕捉到时间偏差和特定时期的错误,而这些对于历史语料库的创建至关重要。本文提出了一种针对基于LLM的历史OCR的评估方法,解决了外交文本转录中的污染风险和系统性偏差。使用18世纪的俄语 гражданский шрифт 文本,我们引入了新的指标,包括历史字符保留率(HCPR)和古语插入率(AIR),以及污染控制和稳定性测试的协议。我们评估了12个多模态LLM,发现Gemini和Qwen模型优于传统OCR,但也表现出过度历史化的问题:插入了来自不正确历史时期的古语字符。OCR后的校正反而降低了性能。我们的方法为数字人文从业者提供了模型选择和历史语料库数字化质量评估的指南。
🔬 方法详解
问题定义:论文旨在解决数字人文领域中,使用大型语言模型(LLM)进行历史文档OCR时,缺乏有效评估框架的问题。现有OCR评估指标(如字符错误率CER)无法捕捉历史文档的特殊性,例如特定时期的字符变体、古语用法等,导致评估结果不准确,难以指导模型选择和优化。此外,历史文档的数字化还面临数据污染(模型训练数据包含测试数据)和系统性偏差(模型偏向特定历史时期)的风险。
核心思路:论文的核心思路是构建一个专门针对历史文档OCR的LLM评估框架,该框架不仅考虑传统的OCR性能指标,还引入新的指标来衡量模型对历史语言特征的理解和还原能力。同时,该框架还包含一套严格的实验协议,用于控制数据污染和识别系统性偏差,从而确保评估结果的可靠性和有效性。
技术框架:该评估框架主要包含以下几个模块:1)数据集构建:选择具有代表性的历史文档图像和对应的转录文本,并进行必要的预处理。2)模型选择:选择一系列具有代表性的LLM,包括多模态模型和传统OCR引擎。3)评估指标:除了传统的字符错误率(CER)外,还引入了历史字符保留率(HCPR)和古语插入率(AIR)等新指标。HCPR衡量模型正确识别历史字符的能力,AIR衡量模型过度使用古语的程度。4)实验协议:设计严格的实验协议,包括数据污染控制(例如,确保测试数据不出现在训练数据中)和稳定性测试(例如,多次运行模型并计算结果的方差)。
关键创新:该论文的关键创新在于:1)提出了针对历史文档OCR的LLM评估框架,弥补了现有评估方法的不足。2)引入了历史字符保留率(HCPR)和古语插入率(AIR)等新指标,更全面地衡量模型对历史语言特征的理解和还原能力。3)设计了严格的实验协议,用于控制数据污染和识别系统性偏差,提高了评估结果的可靠性。
关键设计:HCPR的计算方式为:正确识别的历史字符数 / 总历史字符数。AIR的计算方式为:错误插入的古语字符数 / 总字符数。论文还详细描述了如何构建干净的测试集,避免数据污染。此外,论文还探讨了不同LLM的超参数设置对OCR性能的影响,例如prompt的设计。
📊 实验亮点
实验结果表明,Gemini和Qwen等LLM在18世纪俄语 гражданский шрифт 文本的OCR任务中表现优于传统OCR引擎。然而,这些模型也存在过度历史化的问题,即错误地插入了来自其他历史时期的古语字符。此外,实验还发现,对LLM的OCR结果进行后处理校正反而会降低性能,这表明LLM的错误具有一定的特殊性,需要专门的校正方法。
🎯 应用场景
该研究成果可应用于历史文献数字化、古籍修复、历史研究等领域。通过该评估框架,研究人员和从业者可以选择更适合特定历史文档的LLM,提高OCR的准确性和效率,从而更好地保护和利用珍贵的历史文化遗产。该方法还有助于推动数字人文领域的发展,促进历史研究的数字化转型。
📄 摘要(原文)
Digital humanities scholars increasingly use Large Language Models for historical document digitization, yet lack appropriate evaluation frameworks for LLM-based OCR. Traditional metrics fail to capture temporal biases and period-specific errors crucial for historical corpus creation. We present an evaluation methodology for LLM-based historical OCR, addressing contamination risks and systematic biases in diplomatic transcription. Using 18th-century Russian Civil font texts, we introduce novel metrics including Historical Character Preservation Rate (HCPR) and Archaic Insertion Rate (AIR), alongside protocols for contamination control and stability testing. We evaluate 12 multimodal LLMs, finding that Gemini and Qwen models outperform traditional OCR while exhibiting over-historicization: inserting archaic characters from incorrect historical periods. Post-OCR correction degrades rather than improves performance. Our methodology provides digital humanities practitioners with guidelines for model selection and quality assessment in historical corpus digitization.