Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions
作者: Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti
分类: cond-mat.mtrl-sci, cs.LG
发布日期: 2026-03-02
备注: Under Review
💡 一句话要点
评估LLM在材料科学中的知识:从潜在嵌入到可靠预测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 材料科学 知识表示 数值预测 模型可靠性 Transformer嵌入 头部瓶颈
📋 核心要点
- 现有LLM在材料科学应用中,其可靠性和知识编码方式尚不明确,限制了其应用。
- 通过评估不同LLM在材料科学任务中的表现,分析输出模态对模型行为的影响。
- 实验发现,数值任务中LLM存在“头部瓶颈”,且模型性能随时间变化,影响可重复性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于材料科学领域,但关于其可靠性和知识编码的基本问题仍然存在。本文评估了25个LLM在四个材料科学任务中的表现(超过200个基础和微调配置)。研究发现,输出模态从根本上决定了模型的行为。对于符号任务,微调收敛到一致且可验证的答案,并降低了响应熵;而对于数值任务,微调提高了预测精度,但模型在重复推理运行中仍然不一致,限制了其作为定量预测器的可靠性。对于数值回归,通过从中间Transformer层提取嵌入,可以获得比从模型文本输出更好的性能,揭示了一种“LLM头部瓶颈”,尽管这种效应依赖于属性和数据集。最后,本文对GPT模型在材料科学中的性能进行了纵向研究,跟踪了四个模型超过18个月,观察到9-43%的性能变化,这对科学应用提出了可重复性挑战。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在材料科学领域的知识表示和预测能力,并分析其可靠性。现有方法依赖于直接使用LLM的文本输出进行预测,但可能存在准确性和一致性问题,尤其是在数值预测任务中。此外,LLM的性能随时间变化,导致结果难以复现。
核心思路:论文的核心思路是通过系统地评估不同LLM在不同材料科学任务中的表现,揭示其内在的知识编码方式和局限性。通过比较不同输出模态(符号 vs. 数值)和不同微调策略,分析LLM的可靠性和一致性。此外,探索从中间Transformer层提取嵌入作为替代方案,以克服“LLM头部瓶颈”。
技术框架:论文的整体框架包括以下几个主要阶段:1) 选择25个LLM,涵盖不同架构和规模;2) 定义四个材料科学任务,包括符号任务(如材料分类)和数值任务(如属性预测);3) 对LLM进行微调,并评估其在不同任务上的性能;4) 比较不同输出模态和微调策略对模型性能的影响;5) 探索从中间Transformer层提取嵌入的方法;6) 进行纵向研究,跟踪GPT模型在一段时间内的性能变化。
关键创新:论文的主要创新点包括:1) 揭示了LLM在材料科学数值预测任务中存在的“头部瓶颈”,即直接使用模型文本输出进行预测的性能不如从中间层提取嵌入;2) 发现了LLM的性能随时间变化,对科学研究的可重复性构成挑战;3) 系统地评估了不同LLM在材料科学任务中的表现,为选择合适的LLM和微调策略提供了指导。
关键设计:论文的关键设计包括:1) 选择了具有代表性的材料科学任务,涵盖不同类型的数据和预测目标;2) 使用了多种评估指标,包括准确率、均方误差等,以全面评估模型性能;3) 对LLM进行了充分的微调,并比较了不同微调策略的效果;4) 采用了纵向研究方法,跟踪模型在一段时间内的性能变化。
🖼️ 关键图片
📊 实验亮点
研究发现,对于数值回归任务,从LLM中间Transformer层提取嵌入比直接使用模型文本输出能获得更好的性能,揭示了“LLM头部瓶颈”。纵向研究表明,GPT模型在18个月内性能变化高达9-43%,对材料科学应用的可重复性构成挑战。
🎯 应用场景
该研究成果可应用于材料科学领域的自动化知识发现、材料设计和性能预测。通过选择合适的LLM和微调策略,可以提高材料科学研究的效率和准确性。此外,该研究强调了LLM可靠性和可重复性的重要性,有助于推动LLM在科学领域的负责任应用。
📄 摘要(原文)
Large language models are increasingly applied to materials science, yet fundamental questions remain about their reliability and knowledge encoding. Evaluating 25 LLMs across four materials science tasks -- over 200 base and fine-tuned configurations -- we find that output modality fundamentally determines model behavior. For symbolic tasks, fine-tuning converges to consistent, verifiable answers with reduced response entropy, while for numerical tasks, fine-tuning improves prediction accuracy but models remain inconsistent across repeated inference runs, limiting their reliability as quantitative predictors. For numerical regression, we find that better performance can be obtained by extracting embeddings directly from intermediate transformer layers than from model text output, revealing an ``LLM head bottleneck,'' though this effect is property- and dataset-dependent. Finally, we present a longitudinal study of GPT model performance in materials science, tracking four models over 18 months and observing 9--43\% performance variation that poses reproducibility challenges for scientific applications.