Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts
作者: Zhiyin Tan, Changxu Duan
分类: cs.DL, cs.CL, cs.IR
发布日期: 2026-01-08
备注: Accepted at the 25th ACM/IEEE Joint Conference on Digital Libraries (JCDL 2025)
DOI: 10.1109/JCDL67857.2025.00022
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种基于引文语境的多学科数据集发现框架,提升数据集检索召回率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据集发现 引文语境 大型语言模型 信息检索 知识图谱
📋 核心要点
- 现有数据集搜索引擎依赖元数据和关键词,无法准确捕捉科研意图,导致数据集检索困难。
- 利用论文引文语境,结合大型语言模型进行模式引导的数据集识别,实现基于实际研究使用的数据集发现。
- 实验表明,该方法在数据集召回率上显著优于现有方法,并能发现未被记录的高价值数据集。
📝 摘要(中文)
现有的数据集搜索引擎严重依赖元数据质量和关键词重叠,难以捕捉科学研究的语义意图,导致为特定研究问题寻找合适的数据集仍然具有挑战性。本文提出了一种文献驱动的框架,通过科学论文中的引文语境发现数据集,从而实现基于实际研究使用情况而非元数据可用性的检索。该方法结合了大规模引文语境提取、基于大型语言模型的模式引导数据集识别以及保留溯源信息的实体解析。在八个源于调查的计算机科学查询上的评估表明,该系统实现了比 Google Dataset Search 和 DataCite Commons 显著更高的召回率,标准化召回率平均从 47.47% 到最高 81.82%。除了恢复黄金标准数据集外,该方法还发现了调查中未记录的额外数据集。跨五个顶级科学领域的专家评估表明,很大一部分额外数据集被认为是高实用性的,有些被认为是专家所选特定主题的新颖数据集。这些发现确立了引文语境挖掘作为数据集发现的有效且可推广的范例,尤其是在数据集缺乏充分或可靠元数据的情况下。为了支持可重复性和未来的扩展,我们在 GitHub 上发布了我们的代码、评估数据集和结果。
🔬 方法详解
问题定义:现有数据集搜索引擎依赖于数据集的元数据和关键词匹配,但这些信息往往不完整、不准确,或者无法充分表达数据集在特定研究中的实际用途。因此,研究者难以找到真正适用于其研究问题的数据集。现有方法的痛点在于无法有效利用数据集在实际研究中的使用信息,导致检索结果的召回率较低。
核心思路:本文的核心思路是从科学论文的引文语境中挖掘数据集信息。引文语境包含了数据集在研究中的实际使用方式和目的,能够更准确地反映数据集的语义信息。通过分析引文语境,可以识别出与特定研究问题相关的数据集,并提高数据集检索的召回率。这种方法的核心在于利用了科研人员对数据集的实际使用信息,而非仅仅依赖于数据集自身的元数据。
技术框架:该框架主要包含三个阶段:1) 大规模引文语境提取:从大量的科学论文中提取包含数据集引用的文本片段,构建引文语境库。2) 基于大型语言模型的模式引导数据集识别:利用大型语言模型,结合预定义的模式,从引文语境中识别出数据集的名称、描述等信息。3) 溯源信息保留的实体解析:对识别出的数据集进行实体解析,将其与已知的数据库或知识图谱进行链接,保留数据集的溯源信息。整体流程是从海量文献中提取引文,利用LLM识别数据集,最后进行实体链接。
关键创新:该方法最重要的技术创新点在于利用引文语境进行数据集发现。与传统的基于元数据和关键词的方法相比,该方法能够更准确地捕捉数据集在实际研究中的语义信息,从而提高数据集检索的召回率。此外,该方法还能够发现未被记录在元数据中的数据集,为研究者提供更全面的数据集选择。本质区别在于从“数据集描述”到“数据集使用场景”的转变。
关键设计:在模式引导的数据集识别阶段,需要设计合适的模式来指导大型语言模型进行数据集识别。这些模式可以包括数据集的名称、描述、用途等信息。此外,在实体解析阶段,需要选择合适的数据库或知识图谱来进行数据集的链接,并设计合适的算法来保证实体解析的准确性。论文中未明确说明具体的参数设置、损失函数和网络结构等技术细节,这部分信息未知。
📊 实验亮点
实验结果表明,该方法在八个计算机科学查询上的标准化召回率平均从 47.47% 提升到 81.82%,显著优于 Google Dataset Search 和 DataCite Commons。此外,该方法还发现了调查中未记录的额外数据集,并被专家评估为具有高实用性和新颖性。这些结果验证了该方法在数据集发现方面的有效性和优越性。
🎯 应用场景
该研究成果可应用于科研领域的数据集发现和推荐,帮助研究人员更高效地找到所需的数据集,加速科研进程。此外,该方法还可用于构建更完善的数据集知识图谱,为数据管理和共享提供支持。未来,该技术有望应用于更广泛的领域,例如医疗、金融等,促进跨领域的数据融合和应用。
📄 摘要(原文)
Identifying suitable datasets for a research question remains challenging because existing dataset search engines rely heavily on metadata quality and keyword overlap, which often fail to capture the semantic intent of scientific investigation. We introduce a literature-driven framework that discovers datasets from citation contexts in scientific papers, enabling retrieval grounded in actual research use rather than metadata availability. Our approach combines large-scale citation-context extraction, schema-guided dataset recognition with Large Language Models, and provenance-preserving entity resolution. We evaluate the system on eight survey-derived computer science queries and find that it achieves substantially higher recall than Google Dataset Search and DataCite Commons, with normalized recall ranging from an average of 47.47% to a highest value of 81.82%. Beyond recovering gold-standard datasets, the method also surfaces additional datasets not documented in the surveys. Expert assessments across five top-level Fields of Science indicate that a substantial portion of the additional datasets are considered high utility, and some are regarded as novel for the specific topics chosen by the experts. These findings establish citation-context mining as an effective and generalizable paradigm for dataset discovery, particularly in settings where datasets lack sufficient or reliable metadata. To support reproducibility and future extensions, we release our code, evaluation datasets, and results on GitHub (https://github.com/Fireblossom/citation-context-dataset-discovery).