The InviTE Corpus: Annotating Invectives in Tudor English Texts for Computational Modeling
作者: Sophie Spliethoff, Sanne Hoeken, Silke Schwandt, Sina Zarrieß, Özge Alaçam
分类: cs.CL
发布日期: 2025-09-26
💡 一句话要点
构建InviTE语料库,用于计算建模都铎时期英语文本中的宗教谩骂
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 早期现代英语 宗教谩骂 自然语言处理 文本标注 BERT模型 历史语料库 情感分析
📋 核心要点
- 现有方法难以有效识别和分析早期现代英语文本中细微的宗教谩骂,阻碍了历史研究的深入。
- 论文构建InviTE语料库,通过专家标注,为计算模型提供了高质量的训练数据,从而提升识别准确率。
- 实验表明,在历史数据上预训练并针对谩骂检测进行微调的BERT模型,性能优于通用LLM。
📝 摘要(中文)
本文旨在将自然语言处理(NLP)技术应用于历史研究,特别是解决都铎时期英格兰新教改革背景下的宗教谩骂研究。我们概述了一个工作流程,该流程从原始数据开始,经过预处理和数据选择,再到迭代注释过程。最终,我们推出了InviTE语料库——一个包含近2000个早期现代英语(EModE)句子的语料库,其中包含了关于16世纪英格兰谩骂语言的专家注释。随后,我们评估并比较了微调的基于BERT的模型和零样本提示的指令调整大型语言模型(LLM)的性能,突出了在历史数据上预训练并微调到谩骂检测的模型具有优越性。
🔬 方法详解
问题定义:论文旨在解决历史文本中宗教谩骂的自动识别问题。现有方法在处理早期现代英语(EModE)这种历史语料时,由于语言差异和缺乏标注数据,效果不佳。通用语言模型难以捕捉历史语境下的细微语义差别,导致谩骂识别的准确率较低。
核心思路:论文的核心思路是构建一个专门针对早期现代英语宗教谩骂的标注语料库,并利用该语料库对预训练语言模型进行微调。通过专家标注提供高质量的训练数据,使模型能够学习到特定历史语境下的谩骂表达方式。
技术框架:整体流程包括:1) 从原始历史文本中提取数据;2) 对文本进行预处理,包括分词、词性标注等;3) 由领域专家对文本中的谩骂进行标注;4) 利用标注数据对预训练的BERT模型进行微调;5) 评估微调后的模型在谩骂检测任务上的性能。
关键创新:关键创新在于构建了InviTE语料库,这是一个专门针对早期现代英语宗教谩骂的标注数据集。此外,论文还探索了利用历史数据预训练的模型在谩骂检测任务上的优势,并验证了微调策略的有效性。
关键设计:论文使用了BERT模型作为基础模型,并针对谩骂检测任务进行了微调。具体的微调策略和参数设置在论文中未详细说明,但强调了在历史数据上进行预训练的重要性。损失函数和网络结构等细节也未在摘要中提及。
📊 实验亮点
实验结果表明,在历史数据上预训练并针对谩骂检测进行微调的BERT模型,性能优于零样本提示的指令调整大型语言模型(LLM)。这表明,针对特定领域和任务进行微调的预训练模型,在处理历史文本时具有更强的适应性和准确性。具体的性能数据和提升幅度未在摘要中给出。
🎯 应用场景
该研究成果可应用于历史学、宗教学、社会学等领域,帮助研究人员更深入地理解宗教改革时期英格兰的社会文化氛围。通过自动识别和分析历史文本中的谩骂言论,可以揭示当时社会冲突的根源和演变,为相关研究提供新的视角和方法。
📄 摘要(原文)
In this paper, we aim at the application of Natural Language Processing (NLP) techniques to historical research endeavors, particularly addressing the study of religious invectives in the context of the Protestant Reformation in Tudor England. We outline a workflow spanning from raw data, through pre-processing and data selection, to an iterative annotation process. As a result, we introduce the InviTE corpus -- a corpus of almost 2000 Early Modern English (EModE) sentences, which are enriched with expert annotations regarding invective language throughout 16th-century England. Subsequently, we assess and compare the performance of fine-tuned BERT-based models and zero-shot prompted instruction-tuned large language models (LLMs), which highlights the superiority of models pre-trained on historical data and fine-tuned to invective detection.