XxaCT-NN: Structure Agnostic Multimodal Learning for Materials Science

📄 arXiv: 2507.01054v1 📥 PDF

作者: Jithendaraa Subramanian, Linda Hung, Daniel Schweigert, Santosh Suram, Weike Ye

分类: cs.LG, cond-mat.mtrl-sci, cs.AI

发布日期: 2025-06-27

备注: 10 pages, 6 figures


💡 一句话要点

提出XxaCT-NN以解决材料科学中的结构依赖问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 材料科学 自监督学习 X射线衍射 模型训练 数据集扩展 性能提升

📋 核心要点

  1. 现有的基于结构的材料发现模型在实际应用中面临原子结构未知的挑战,限制了其有效性。
  2. 本文提出的XxaCT-NN框架通过直接利用元素组成和XRD数据,避免了对晶体结构的依赖,具有更好的实用性。
  3. 实验结果显示,预训练策略显著提高了模型的收敛速度和准确性,尤其是在大规模数据集上表现优越。

📝 摘要(中文)

近年来,材料发现的进展主要依赖于基于结构的模型,尤其是使用晶体图的模型。然而,这些模型在实际应用中往往不够实用,因为原子结构通常未知或难以获取。本文提出了一种可扩展的多模态框架,直接从元素组成和X射线衍射(XRD)中学习,无需晶体结构输入。我们的架构结合了特定模态的编码器和交叉注意力融合模块,并在500万样本的Alexandria数据集上进行训练。我们提出了掩蔽XRD建模(MXM),并将MXM和对比对齐作为自监督预训练策略。预训练加速收敛(最高可达4.2倍),并提高了准确性和表示质量。我们的结果表明,多模态性能在数据集规模上比单模态基线更具优势,且在更大数据范围内增益复合。

🔬 方法详解

问题定义:本文旨在解决现有材料科学模型对晶体结构的依赖问题,特别是在实际应用中,原子结构往往未知或难以获取。现有方法在处理这些情况时效果不佳。

核心思路:XxaCT-NN框架通过结合元素组成和XRD数据,采用多模态学习方法,避免了对晶体结构的依赖,从而提高了模型的适用性和灵活性。

技术框架:该框架包括模态特定的编码器和一个交叉注意力融合模块,能够有效整合不同模态的信息。模型在500万样本的Alexandria数据集上进行训练,采用掩蔽XRD建模(MXM)和对比对齐作为自监督预训练策略。

关键创新:最重要的创新在于提出了掩蔽XRD建模(MXM)作为一种新颖的自监督学习策略,显著提高了模型的训练效率和表示能力。这一方法与传统的结构依赖模型有本质区别。

关键设计:在模型设计中,采用了特定模态的编码器以提取元素组成和XRD数据的特征,使用交叉注意力机制进行信息融合,损失函数设计上则结合了自监督学习的策略,以提升模型的整体性能。

📊 实验亮点

实验结果表明,XxaCT-NN在预训练阶段实现了最高4.2倍的收敛速度提升,同时在准确性和表示质量上均有显著提高。与单模态基线相比,多模态性能在大规模数据集上表现出更强的增益,证明了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括材料科学中的新材料发现、材料性能预测以及实验数据分析等。通过提供一种不依赖于晶体结构的学习框架,XxaCT-NN能够加速材料研发过程,降低实验成本,推动材料科学的进步。未来,该方法可能会影响更多领域的多模态学习应用。

📄 摘要(原文)

Recent advances in materials discovery have been driven by structure-based models, particularly those using crystal graphs. While effective for computational datasets, these models are impractical for real-world applications where atomic structures are often unknown or difficult to obtain. We propose a scalable multimodal framework that learns directly from elemental composition and X-ray diffraction (XRD) -- two of the more available modalities in experimental workflows without requiring crystal structure input. Our architecture integrates modality-specific encoders with a cross-attention fusion module and is trained on the 5-million-sample Alexandria dataset. We present masked XRD modeling (MXM), and apply MXM and contrastive alignment as self-supervised pretraining strategies. Pretraining yields faster convergence (up to 4.2x speedup) and improves both accuracy and representation quality. We further demonstrate that multimodal performance scales more favorably with dataset size than unimodal baselines, with gains compounding at larger data regimes. Our results establish a path toward structure-free, experimentally grounded foundation models for materials science.