Publishing FAIR and Machine-actionable Reviews in Materials Science: The Case for Symbolic Knowledge in Neuro-symbolic Artificial Intelligence

📄 arXiv: 2601.05051v1 📥 PDF

作者: Jennifer D'Souza, Soren Auer, Eleni Poupaki, Alex Watkins, Anjana Devi, Riikka L. Puurunen, Bora Karasulu, Adrie Mackus, Erwin Kessels

分类: cs.AI, cs.CL, cs.DL, cs.IT

发布日期: 2026-01-08

备注: 35 pages, 11 figures


💡 一句话要点

在材料科学中发布FAIR和机器可操作的评论:神经符号人工智能中符号知识的案例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料科学 知识图谱 神经符号人工智能 原子层沉积 开放研究知识图 FAIR原则 机器可操作知识

📋 核心要点

  1. 材料科学的综述文献蕴含大量知识,但传统存储方式不利于机器理解和重用,阻碍了知识的有效传播。
  2. 该研究提出将综述表格转换为FAIR且机器可操作的格式,存储于开放研究知识图(ORKG)中,实现结构化知识的查询。
  3. 对比实验表明,符号查询在可靠性方面优于直接使用大型语言模型,强调了符号知识在神经符号AI中的重要性。

📝 摘要(中文)

科学评论是材料科学中知识整合的核心,但其关键见解仍被锁定在叙述性文本和静态PDF表格中,限制了人类和机器的重用。本文提出了一个原子层沉积和蚀刻(ALD/E)的案例研究,我们在开放研究知识图(ORKG)中发布评论表格,作为FAIR、机器可操作的比较,将其转化为结构化的、可查询的知识。在此基础上,我们将基于ORKG的符号查询与基于大型语言模型的查询进行了对比,并认为在材料科学中,一个经过管理的符号层应该仍然是可靠的神经符号人工智能的支柱,大型语言模型作为互补的、符号接地的接口,而不是独立的真理来源。

🔬 方法详解

问题定义:材料科学领域的综述文献通常以叙述性文本和静态PDF表格的形式存在,这些形式难以被机器解析和利用。现有方法无法有效地提取和整合综述中的关键信息,阻碍了知识的重用和进一步研究。因此,如何将综述文献中的知识转化为机器可操作的形式是一个亟待解决的问题。

核心思路:该论文的核心思路是将综述文献中的表格数据转化为FAIR(Findable, Accessible, Interoperable, Reusable)且机器可操作的格式,并存储在开放研究知识图(ORKG)中。通过将非结构化数据转化为结构化知识,使得机器能够理解和查询这些知识,从而提高知识的利用率。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从原子层沉积和蚀刻(ALD/E)领域的综述文献中提取表格数据;2) 将提取的数据转换为FAIR原则指导下的机器可操作格式,例如使用标准化的术语和本体;3) 将转换后的数据存储在开放研究知识图(ORKG)中,形成结构化的知识库;4) 对ORKG中的知识进行符号查询,并与基于大型语言模型的查询进行对比。

关键创新:该研究的关键创新在于将FAIR原则应用于材料科学综述文献的知识表示,并将其存储在开放研究知识图(ORKG)中。这种方法使得机器能够理解和查询综述文献中的知识,从而提高了知识的利用率。此外,该研究还强调了符号知识在神经符号人工智能中的重要性,认为符号层应该作为可靠的知识来源,而大型语言模型应该作为互补的接口。

关键设计:该研究的关键设计包括:1) 使用标准化的术语和本体来表示材料科学领域的知识,例如使用ALD/E领域的专业术语;2) 设计了合适的查询语言,使得用户能够方便地查询ORKG中的知识;3) 对比了符号查询和基于大型语言模型的查询,评估了不同方法的性能。

📊 实验亮点

该研究通过将原子层沉积和蚀刻(ALD/E)领域的综述表格转化为ORKG中的结构化知识,实现了机器可操作的查询。对比实验表明,基于ORKG的符号查询在准确性和可靠性方面优于直接使用大型语言模型,验证了符号知识在神经符号AI中的重要性。

🎯 应用场景

该研究成果可应用于材料科学、化学工程等领域,促进知识的共享和重用。通过将综述文献转化为机器可操作的知识,可以加速新材料的发现和工艺的优化。未来,该方法有望推广到其他科学领域,构建更加完善的知识图谱。

📄 摘要(原文)

Scientific reviews are central to knowledge integration in materials science, yet their key insights remain locked in narrative text and static PDF tables, limiting reuse by humans and machines alike. This article presents a case study in atomic layer deposition and etching (ALD/E) where we publish review tables as FAIR, machine-actionable comparisons in the Open Research Knowledge Graph (ORKG), turning them into structured, queryable knowledge. Building on this, we contrast symbolic querying over ORKG with large language model-based querying, and argue that a curated symbolic layer should remain the backbone of reliable neurosymbolic AI in materials science, with LLMs serving as complementary, symbolically grounded interfaces rather than standalone sources of truth.