Zero- and Few-Shot Named-Entity Recognition: Case Study and Dataset in the Crime Domain (CrimeNER)

📄 arXiv: 2603.02150v1 📥 PDF

作者: Miguel Lopez-Duran, Julian Fierrez, Aythami Morales, Daniel DeAlcala, Gonzalo Mancera, Javier Irigoyen, Ruben Tolosana, Oscar Delgado, Francisco Jurado, Alvaro Ortigosa

分类: cs.CL, cs.AI, cs.DB

发布日期: 2026-03-02

备注: Sent for review at the main conference of the International Conference of Document Analysis and Recognition (ICDAR) 2026


💡 一句话要点

提出CrimeNERdb数据集,研究犯罪领域零样本和少样本命名实体识别问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 犯罪领域 零样本学习 少样本学习 数据集 自然语言处理

📋 核心要点

  1. 现有犯罪领域命名实体识别缺乏充分标注的数据,限制了相关技术的发展和应用。
  2. 本文构建了CrimeNERdb数据集,并研究了零样本和少样本场景下的命名实体识别方法。
  3. 实验表明,在CrimeNERdb数据集上,先进的NER模型和大型语言模型在零样本和少样本设置下表现良好。

📝 摘要(中文)

本文针对执法机构从犯罪相关文档中提取关键信息的需求,提出了一个关于犯罪相关的零样本和少样本命名实体识别的案例研究,并构建了一个通用的犯罪相关命名实体识别数据库(CrimeNERdb)。该数据库包含超过1500份标注文档,这些文档来源于恐怖袭击公共报告和美国司法部的新闻稿,用于NER任务。定义了5种粗粒度的犯罪实体类型和总共22种细粒度的实体类型。通过在零样本和少样本设置下,使用最先进的NER模型以及通用的大型语言模型进行实验,验证了案例研究和标注数据的质量。

🔬 方法详解

问题定义:本文旨在解决犯罪领域命名实体识别(NER)中数据标注不足的问题。现有的NER模型在通用领域表现良好,但在特定犯罪领域由于缺乏足够的标注数据,性能显著下降。因此,如何在零样本或少样本的情况下,有效地进行犯罪领域的NER是本文要解决的核心问题。

核心思路:本文的核心思路是构建一个高质量的犯罪领域NER数据集(CrimeNERdb),并利用该数据集评估现有NER模型和大型语言模型在零样本和少样本设置下的性能。通过案例研究,探索适用于犯罪领域NER的有效方法。

技术框架:本文的技术框架主要包括以下几个部分:1) 数据收集与标注:从公开的恐怖袭击报告和美国司法部新闻稿中收集犯罪相关文档,并进行人工标注。2) 实体类型定义:定义了5种粗粒度的犯罪实体类型和22种细粒度的实体类型。3) 模型评估:在CrimeNERdb数据集上,评估了最先进的NER模型以及通用的大型语言模型在零样本和少样本设置下的性能。

关键创新:本文的关键创新在于构建了一个高质量的、专门针对犯罪领域的NER数据集(CrimeNERdb)。该数据集的发布填补了犯罪领域NER数据标注的空白,为后续研究提供了基础。此外,本文还系统地评估了现有NER模型和大型语言模型在犯罪领域零样本和少样本设置下的性能,为选择合适的模型提供了参考。

关键设计:数据集标注方面,作者仔细定义了实体类型,并进行了高质量的人工标注。实验方面,作者选择了具有代表性的NER模型和大型语言模型,并在零样本和少样本设置下进行了充分的评估。具体的参数设置和损失函数等细节在论文中没有详细说明,属于模型本身的固有设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文构建了包含超过1500份标注文档的CrimeNERdb数据集,并评估了现有NER模型和大型语言模型在零样本和少样本设置下的性能。实验结果表明,即使在数据稀缺的情况下,一些模型也能取得较好的效果,为犯罪领域NER的应用提供了可能性。

🎯 应用场景

该研究成果可应用于执法机构,辅助其从犯罪相关文档中快速提取关键信息,例如犯罪类型、涉案人员、地点等,从而提高办案效率。此外,该数据集的发布也有助于推动犯罪领域自然语言处理技术的发展,例如犯罪预测、舆情分析等。

📄 摘要(原文)

The extraction of critical information from crime-related documents is a crucial task for law enforcement agencies. Named-Entity Recognition (NER) can perform this task in extracting information about the crime, the criminal, or law enforcement agencies involved. However, there is a considerable lack of adequately annotated data on general real-world crime scenarios. To address this issue, we present CrimeNER, a case-study of Crime-related zero- and Few-Shot NER, and a general Crime-related Named-Entity Recognition database (CrimeNERdb) consisting of more than 1.5k annotated documents for the NER task extracted from public reports on terrorist attacks and the U.S. Department of Justice's press notes. We define 5 types of coarse crime entity and a total of 22 types of fine-grained entity. We address the quality of the case-study and the annotated data with experiments on Zero and Few-Shot settings with State-of-the-Art NER models as well as generalist and commonly used Large Language Models.