Are neural scaling laws leading quantum chemistry astray?
作者: Siwoo Lee, Adji Bousso Dieng
分类: physics.chem-ph, cs.LG, physics.comp-ph
发布日期: 2025-09-30
💡 一句话要点
揭示神经标度律在量子化学中面临的挑战:单纯扩大模型和数据规模不足以保证可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量子化学 神经标度律 分子解离 基础模型 库仑定律
📋 核心要点
- 现有量子化学模型依赖于大规模数据和模型扩展,但其泛化能力,尤其是在分子解离等极端情况下的表现,仍然面临挑战。
- 该研究通过分析模型在H$_2$分子键解离能预测上的表现,评估了神经标度律在量子化学中的适用性,着重考察模型对基本物理定律的掌握程度。
- 实验表明,单纯依赖数据和模型规模的扩展无法保证量子化学模型的可靠性,模型难以学习到基本的库仑定律,在简单体系中也会失效。
📝 摘要(中文)
神经标度律正推动机器学习社区在各个领域训练越来越大的基础模型,以期获得高精度和可迁移的表征,从而实现外推任务。本文通过扩展模型容量和量子化学计算的训练数据,来测试这一承诺在量子化学中的有效性。以最简单的分子H$_2$的键解离能预测作为泛化任务,我们发现,无论数据集大小或模型容量如何,仅在稳定结构上训练的模型都无法在质量上重现H$_2$能量曲线。只有当训练数据中显式包含压缩和拉伸的几何结构时,预测结果才大致类似于正确的形状。然而,在包含解离双原子分子的最大和最多样化的数据集上训练的最大基础模型,在简单的双原子分子上表现出严重的失败。最引人注目的是,它们无法重现两个裸质子的简单排斥能量曲线,揭示了它们未能学习电子结构理论中涉及的基本库仑定律。这些结果表明,仅靠扩展不足以构建可靠的量子化学模型。
🔬 方法详解
问题定义:论文旨在评估神经标度律在量子化学领域的有效性,特别是针对分子键解离过程的能量预测。现有方法虽然可以通过扩大模型和数据集规模来提高精度,但其泛化能力,尤其是在处理非平衡态或极端构型时,仍然存在不足。这些方法可能无法准确捕捉到分子解离过程中能量变化的复杂物理机制,导致预测结果与真实情况存在较大偏差。
核心思路:论文的核心思路是通过分析模型在预测简单分子(H$_2$)键解离能曲线时的表现,来评估其对基本物理定律(如库仑定律)的掌握程度。如果模型能够准确预测H$_2$的能量曲线,包括稳定结构和解离状态,则表明其具有较好的泛化能力和对物理规律的理解。反之,如果模型在简单体系中都表现出明显的失败,则说明单纯依赖数据和模型规模的扩展可能无法保证模型的可靠性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建不同规模的量子化学数据集,包括稳定结构和解离状态的分子构型;2) 训练不同容量的神经网络模型,例如基础模型;3) 使用训练好的模型预测H$_2$的键解离能曲线;4) 将预测结果与真实的能量曲线进行比较,评估模型的性能和泛化能力。研究重点关注模型在预测两个裸质子的排斥能量曲线时的表现,以此来检验模型是否学习到了基本的库仑定律。
关键创新:该研究的关键创新在于其评估方法,即通过分析模型在简单分子体系中的表现来评估其对基本物理定律的掌握程度。这种方法不同于传统的性能评估指标,例如预测精度或计算效率,而是更加关注模型的物理可解释性和泛化能力。此外,该研究还揭示了神经标度律在量子化学领域面临的挑战,即单纯依赖数据和模型规模的扩展可能无法保证模型的可靠性。
关键设计:论文的关键设计包括:1) 选择H$_2$分子作为测试对象,因为它足够简单,可以方便地进行理论计算和实验验证;2) 构建包含不同分子构型的数据集,包括稳定结构和解离状态,以考察模型在不同状态下的表现;3) 使用不同容量的神经网络模型,以评估模型规模对性能的影响;4) 重点关注模型在预测两个裸质子的排斥能量曲线时的表现,以此来检验模型是否学习到了基本的库仑定律。
📊 实验亮点
实验结果表明,即使在包含解离双原子分子的最大和最多样化的数据集上训练的最大基础模型,也无法重现两个裸质子的简单排斥能量曲线,揭示了它们未能学习电子结构理论中涉及的基本库仑定律。这表明单纯依赖数据和模型规模的扩展可能无法保证量子化学模型的可靠性,需要在模型设计和训练中更多地考虑物理知识。
🎯 应用场景
该研究结果对量子化学模型的开发具有重要指导意义,强调了在模型训练中融入物理知识的重要性。未来的研究可以探索如何将物理约束或先验知识融入到神经网络模型中,以提高模型的泛化能力和可靠性。这对于开发更准确、更可靠的量子化学模型,从而加速材料发现、药物设计等领域的研究具有重要意义。
📄 摘要(原文)
Neural scaling laws are driving the machine learning community toward training ever-larger foundation models across domains, assuring high accuracy and transferable representations for extrapolative tasks. We test this promise in quantum chemistry by scaling model capacity and training data from quantum chemical calculations. As a generalization task, we evaluate the resulting models' predictions of the bond dissociation energy of neutral H$_2$, the simplest possible molecule. We find that, regardless of dataset size or model capacity, models trained only on stable structures fail dramatically to even qualitatively reproduce the H$_2$ energy curve. Only when compressed and stretched geometries are explicitly included in training do the predictions roughly resemble the correct shape. Nonetheless, the largest foundation models trained on the largest and most diverse datasets containing dissociating diatomics exhibit serious failures on simple diatomic molecules. Most strikingly, they cannot reproduce the trivial repulsive energy curve of two bare protons, revealing their failure to learn the basic Coulomb's law involved in electronic structure theory. These results suggest that scaling alone is insufficient for building reliable quantum chemical models.