CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents
作者: Martin Kostelník, Michal Hradiš, Martin Dočekal
分类: cs.CL, cs.AI
发布日期: 2026-03-04
🔗 代码/项目: GITHUB
💡 一句话要点
CzechTopic:面向捷克历史文档的零样本主题定位基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主题定位 零样本学习 历史文档 捷克语 基准数据集
📋 核心要点
- 主题定位旨在识别文本中表达特定主题的片段,现有方法在历史文档等复杂场景下表现不足。
- CzechTopic基准数据集通过人工标注捷克历史文档,提供高质量的主题和文本片段对应关系,促进零样本主题定位研究。
- 实验评估了多种LLM和BERT模型,结果表明LLM性能差异大,小型token embedding模型仍具竞争力。
📝 摘要(中文)
本文提出了一个基于捷克历史文档的人工标注基准数据集CzechTopic,用于研究主题定位任务。该任务旨在识别文本中表达特定主题的片段,主题由名称和描述定义。数据集包含人工定义的主题以及手动标注的文本片段,并支持文档和词级别的评估。评估是相对于人类共识进行的,而不是单一的参考标注。论文评估了多种大型语言模型以及在提炼的开发数据集上微调的基于BERT的模型。结果表明,LLM的性能差异很大,从接近人类的主题检测到跨度定位的明显失败。虽然最强的模型接近人类共识,但提炼的token embedding模型尽管规模较小,仍具有竞争力。数据集和评估框架已公开。
🔬 方法详解
问题定义:论文旨在解决历史捷克文档中的零样本主题定位问题。现有方法在处理历史文档时,由于语言的古老性、文档的复杂性以及缺乏标注数据等问题,表现不佳。因此,需要一个专门针对历史捷克文档的主题定位基准数据集,以促进相关研究。
核心思路:论文的核心思路是构建一个高质量的人工标注数据集,包含主题定义和对应的文本片段,并基于人类共识进行评估。通过这个数据集,可以评估不同模型在零样本条件下的主题定位能力,并促进更有效的方法开发。
技术框架:该研究的技术框架主要包括以下几个部分:1) 数据集构建:收集捷克历史文档,定义主题,并由人工标注主题相关的文本片段。2) 模型评估:选择一系列大型语言模型(LLM)和基于BERT的模型,并在CzechTopic数据集上进行评估。3) 评估指标:使用文档级别和词级别的评估指标,并与人类共识进行比较。4) 基线模型:使用在提炼的开发数据集上微调的BERT模型作为基线模型。
关键创新:该论文的关键创新在于构建了一个专门针对捷克历史文档的零样本主题定位基准数据集CzechTopic。该数据集具有以下特点:1) 人工标注:保证了标注的质量和准确性。2) 基于人类共识的评估:避免了单一参考标注的偏差。3) 包含多种类型的主题:覆盖了历史文档中常见的各种主题。
关键设计:数据集构建的关键设计包括:1) 主题定义:由领域专家定义主题,并提供详细的描述。2) 文本片段标注:由人工标注人员根据主题定义,在文档中选择相关的文本片段。3) 标注质量控制:采用多轮标注和审核机制,确保标注的质量和一致性。模型评估的关键设计包括:1) 选择具有代表性的LLM和BERT模型。2) 使用文档级别和词级别的评估指标,全面评估模型的性能。3) 与人类共识进行比较,评估模型的实际应用价值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大型语言模型在CzechTopic数据集上的性能差异显著,部分模型接近人类水平,但也有模型表现出明显的失败。经过蒸馏训练的token embedding模型虽然规模较小,但在某些指标上仍具有竞争力。该数据集为评估和改进零样本主题定位模型提供了一个有价值的平台。
🎯 应用场景
该研究成果可应用于历史文档分析、数字人文、信息检索等领域。通过自动识别历史文档中的主题信息,可以帮助研究人员更高效地理解和利用历史资源。此外,该数据集可以促进零样本主题定位技术的发展,为其他语言和领域的文档分析提供借鉴。
📄 摘要(原文)
Topic localization aims to identify spans of text that express a given topic defined by a name and description. To study this task, we introduce a human-annotated benchmark based on Czech historical documents, containing human-defined topics together with manually annotated spans and supporting evaluation at both document and word levels. Evaluation is performed relative to human agreement rather than a single reference annotation. We evaluate a diverse range of large language models alongside BERT-based models fine-tuned on a distilled development dataset. Results reveal substantial variability among LLMs, with performance ranging from near-human topic detection to pronounced failures in span localization. While the strongest models approach human agreement, the distilled token embedding models remain competitive despite their smaller scale. The dataset and evaluation framework are publicly available at: https://github.com/dcgm/czechtopic.