NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories
作者: Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack
分类: cs.CL
发布日期: 2026-03-05
备注: To be published (Accepted at WWW'26)
💡 一句话要点
提出NERdME数据集,用于识别代码仓库中研究成果的命名实体。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 代码仓库 README文件 学术信息抽取 数据集构建
📋 核心要点
- 现有学术信息抽取数据集侧重论文,忽略代码仓库的实现细节,README文件信息抽取困难。
- 提出NERdME数据集,包含200个带标注的README文件,涵盖10种实体类型,旨在弥补这一差距。
- 实验表明,论文层面和实现层面实体存在差异,NERdME数据集可用于成果发现和元数据集成。
📝 摘要(中文)
现有的学术信息抽取(SIE)数据集主要关注科学论文,忽略了代码仓库中实现层面的细节。README文件描述了数据集、源代码和其他实现层面的成果,但其自由形式的Markdown结构缺乏语义信息,使得自动信息抽取变得困难。为了解决这个问题,论文提出了NERdME:一个包含200个手动标注的README文件的数据集,拥有超过10,000个标注跨度和10种实体类型。使用大型语言模型和微调的Transformer的基线结果表明,论文层面的实体和实现层面的实体之间存在明显差异,这表明扩展SIE基准测试,纳入README文件中可用的实体类型是有价值的。下游实体链接实验表明,从README中提取的实体可以支持成果发现和元数据集成。
🔬 方法详解
问题定义:现有学术信息抽取数据集主要针对论文,缺乏对代码仓库中实现细节的关注。README文件包含了数据集、代码等重要信息,但其自由文本格式使得自动抽取这些信息非常困难,阻碍了对软件相关研究成果的有效索引和利用。
核心思路:论文的核心思路是构建一个专门针对代码仓库README文件的命名实体识别数据集NERdME。通过人工标注,为README文件中的实体赋予明确的类型信息,从而使得机器学习模型能够学习并自动识别这些实体。
技术框架:NERdME数据集的构建流程主要包括以下几个阶段:1) 收集代码仓库的README文件;2) 定义实体类型,涵盖数据集、源代码、模型等10种类型;3) 由人工标注员对README文件进行标注,标注实体及其类型;4) 对标注数据进行质量控制,确保标注的准确性和一致性。此外,论文还使用了大型语言模型和微调的Transformer模型作为基线方法,对NERdME数据集进行了初步的实验验证。
关键创新:NERdME数据集的关键创新在于其关注了代码仓库中实现层面的信息,并提供了一个高质量的命名实体识别数据集。与现有的学术信息抽取数据集相比,NERdME数据集的实体类型更加贴近软件开发和研究的实际需求,例如数据集、模型、库等。
关键设计:NERdME数据集包含200个README文件,超过10,000个标注跨度,涵盖10种实体类型。论文没有详细描述基线模型的具体参数设置和损失函数,但提到使用了大型语言模型和微调的Transformer模型。实体链接实验中,具体链接策略和评估指标未知。
🖼️ 关键图片
📊 实验亮点
论文通过基线实验验证了NERdME数据集的有效性。使用大型语言模型和微调的Transformer模型进行命名实体识别,结果表明论文层面的实体和实现层面的实体之间存在明显差异。下游实体链接实验表明,从README中提取的实体可以支持成果发现和元数据集成。具体的性能数据和提升幅度未知。
🎯 应用场景
NERdME数据集可用于改进代码仓库的索引和搜索,帮助研究人员快速找到所需的软件和数据集。它还可以用于构建知识图谱,将代码仓库中的实体与论文、作者等信息关联起来,从而实现更全面的学术信息管理。此外,该数据集还可以促进软件工程领域的自动化研究,例如自动生成文档、自动代码审查等。
📄 摘要(原文)
Existing scholarly information extraction (SIE) datasets focus on scientific papers and overlook implementation-level details in code repositories. README files describe datasets, source code, and other implementation-level artifacts, however, their free-form Markdown offers little semantic structure, making automatic information extraction difficult. To address this gap, NERdME is introduced: 200 manually annotated README files with over 10,000 labeled spans and 10 entity types. Baseline results using large language models and fine-tuned transformers show clear differences between paperlevel and implementation-level entities, indicating the value of extending SIE benchmarks with entity types available in README files. A downstream entity-linking experiment was conducted to demonstrate that entities derived from READMEs can support artifact discovery and metadata integration.