NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

作者: Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack

分类: cs.CL

发布日期: 2026-03-05

备注: To be published (Accepted at WWW'26)

DOI: 10.1145/3774904.3792934

💡 一句话要点

提出NERdME数据集，用于识别代码仓库中研究成果的命名实体。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 命名实体识别 代码仓库 README文件 学术信息抽取 数据集构建

📋 核心要点

现有学术信息抽取数据集侧重论文，忽略代码仓库的实现细节，README文件信息抽取困难。
提出NERdME数据集，包含200个带标注的README文件，涵盖10种实体类型，旨在弥补这一差距。
实验表明，论文层面和实现层面实体存在差异，NERdME数据集可用于成果发现和元数据集成。

📝 摘要（中文）

现有的学术信息抽取(SIE)数据集主要关注科学论文，忽略了代码仓库中实现层面的细节。README文件描述了数据集、源代码和其他实现层面的成果，但其自由形式的Markdown结构缺乏语义信息，使得自动信息抽取变得困难。为了解决这个问题，论文提出了NERdME：一个包含200个手动标注的README文件的数据集，拥有超过10,000个标注跨度和10种实体类型。使用大型语言模型和微调的Transformer的基线结果表明，论文层面的实体和实现层面的实体之间存在明显差异，这表明扩展SIE基准测试，纳入README文件中可用的实体类型是有价值的。下游实体链接实验表明，从README中提取的实体可以支持成果发现和元数据集成。

🔬 方法详解

问题定义：现有学术信息抽取数据集主要针对论文，缺乏对代码仓库中实现细节的关注。README文件包含了数据集、代码等重要信息，但其自由文本格式使得自动抽取这些信息非常困难，阻碍了对软件相关研究成果的有效索引和利用。

核心思路：论文的核心思路是构建一个专门针对代码仓库README文件的命名实体识别数据集NERdME。通过人工标注，为README文件中的实体赋予明确的类型信息，从而使得机器学习模型能够学习并自动识别这些实体。

技术框架：NERdME数据集的构建流程主要包括以下几个阶段：1) 收集代码仓库的README文件；2) 定义实体类型，涵盖数据集、源代码、模型等10种类型；3) 由人工标注员对README文件进行标注，标注实体及其类型；4) 对标注数据进行质量控制，确保标注的准确性和一致性。此外，论文还使用了大型语言模型和微调的Transformer模型作为基线方法，对NERdME数据集进行了初步的实验验证。

关键创新：NERdME数据集的关键创新在于其关注了代码仓库中实现层面的信息，并提供了一个高质量的命名实体识别数据集。与现有的学术信息抽取数据集相比，NERdME数据集的实体类型更加贴近软件开发和研究的实际需求，例如数据集、模型、库等。

关键设计：NERdME数据集包含200个README文件，超过10,000个标注跨度，涵盖10种实体类型。论文没有详细描述基线模型的具体参数设置和损失函数，但提到使用了大型语言模型和微调的Transformer模型。实体链接实验中，具体链接策略和评估指标未知。

🖼️ 关键图片

📊 实验亮点

论文通过基线实验验证了NERdME数据集的有效性。使用大型语言模型和微调的Transformer模型进行命名实体识别，结果表明论文层面的实体和实现层面的实体之间存在明显差异。下游实体链接实验表明，从README中提取的实体可以支持成果发现和元数据集成。具体的性能数据和提升幅度未知。

🎯 应用场景

NERdME数据集可用于改进代码仓库的索引和搜索，帮助研究人员快速找到所需的软件和数据集。它还可以用于构建知识图谱，将代码仓库中的实体与论文、作者等信息关联起来，从而实现更全面的学术信息管理。此外，该数据集还可以促进软件工程领域的自动化研究，例如自动生成文档、自动代码审查等。

📄 摘要（原文）

Existing scholarly information extraction (SIE) datasets focus on scientific papers and overlook implementation-level details in code repositories. README files describe datasets, source code, and other implementation-level artifacts, however, their free-form Markdown offers little semantic structure, making automatic information extraction difficult. To address this gap, NERdME is introduced: 200 manually annotated README files with over 10,000 labeled spans and 10 entity types. Baseline results using large language models and fine-tuned transformers show clear differences between paperlevel and implementation-level entities, indicating the value of extending SIE benchmarks with entity types available in README files. A downstream entity-linking experiment was conducted to demonstrate that entities derived from READMEs can support artifact discovery and metadata integration.

NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理