MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics
作者: Zhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing
分类: cs.CE, cs.LG
发布日期: 2026-01-05
备注: 24 pages,4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
MDAgent2:用于分子动力学代码生成和知识问答的大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子动力学 代码生成 大语言模型 强化学习 领域自适应 LAMMPS AI for Science
📋 核心要点
- 分子动力学模拟脚本编写专业性强且耗时,现有方法难以满足需求,阻碍了相关研究的效率。
- MDAgent2通过构建领域数据集,并采用持续预训练、监督微调和强化学习等策略,训练领域自适应模型。
- MDAgent2在LAMMPS代码生成和问答基准测试中,超越了多个基线模型,验证了其有效性和泛化能力。
📝 摘要(中文)
分子动力学(MD)模拟对于理解材料科学中的原子尺度行为至关重要,但编写LAMMPS脚本仍然是一项高度专业化且耗时的任务。尽管LLM在代码生成和领域特定问题回答方面显示出潜力,但它们在MD场景中的性能受到稀缺领域数据、最先进LLM的高部署成本和低代码可执行性的限制。在我们的先前工作MDAgent的基础上,我们提出了MDAgent2,这是第一个能够在MD领域内执行知识问答和代码生成的端到端框架。我们构建了一个领域特定的数据构建管道,产生了三个高质量的数据集,涵盖MD知识、问题回答和代码生成。基于这些数据集,我们采用了一个三阶段的后训练策略——持续预训练(CPT)、监督微调(SFT)和强化学习(RL)——来训练两个领域自适应模型,MD-Instruct和MD-Code。此外,我们引入了MD-GRPO,一种闭环RL方法,它利用模拟结果作为奖励信号,并回收低奖励轨迹以进行持续改进。我们进一步构建了MDAgent2-RUNTIME,一个可部署的多智能体系统,集成了代码生成、执行、评估和自我纠正。连同本工作中提出的MD-EvalBench,这是第一个用于LAMMPS代码生成和问题回答的基准,我们的模型和系统实现了超越几个强大基线的性能。这项工作系统地展示了大型语言模型在工业仿真任务中的适应性和泛化能力,为人工智能科学和工业规模仿真中的自动代码生成奠定了方法论基础。
🔬 方法详解
问题定义:分子动力学模拟是材料科学研究的重要工具,但编写LAMMPS脚本需要专业知识和大量时间。现有的大语言模型在通用代码生成方面表现出色,但在分子动力学领域由于数据稀缺、部署成本高和代码可执行性低等问题,难以直接应用,导致效率低下。
核心思路:MDAgent2的核心思路是构建领域特定的数据集,并利用这些数据集对大语言模型进行针对性的训练和优化,使其能够更好地理解分子动力学领域的知识,并生成可执行的LAMMPS代码。通过闭环强化学习,利用模拟结果作为反馈,不断提升代码质量。
技术框架:MDAgent2包含数据构建管道、模型训练和多智能体系统三个主要部分。数据构建管道负责生成高质量的MD知识、问答和代码生成数据集。模型训练阶段采用持续预训练(CPT)、监督微调(SFT)和强化学习(RL)的三阶段策略,训练MD-Instruct和MD-Code两个模型。MDAgent2-RUNTIME是一个多智能体系统,集成了代码生成、执行、评估和自我纠正等功能。
关键创新:MDAgent2的关键创新在于构建了领域特定的数据构建管道和MD-EvalBench基准测试,以及提出的MD-GRPO闭环强化学习方法。MD-GRPO利用模拟结果作为奖励信号,并回收低奖励轨迹进行持续改进,显著提升了代码生成质量。
关键设计:在数据构建方面,采用了多种策略来保证数据的质量和多样性。在模型训练方面,选择了合适的预训练模型,并针对分子动力学领域的特点进行了调整。在强化学习方面,设计了合适的奖励函数,以引导模型生成更有效的代码。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MDAgent2在MD-EvalBench基准测试中表现出色,超越了多个强大的基线模型。具体性能数据和提升幅度在摘要中未详细给出,属于未知信息。但该结果表明,MDAgent2在LAMMPS代码生成和问题回答方面具有显著优势。
🎯 应用场景
MDAgent2可应用于材料科学、化学、生物物理等领域,加速分子动力学模拟的脚本编写过程,降低研究门槛,提高科研效率。该研究为AI for Science和工业规模仿真中的自动代码生成奠定了基础,有望推动相关领域的自动化和智能化发展。
📄 摘要(原文)
Molecular dynamics (MD) simulations are essential for understanding atomic-scale behaviors in materials science, yet writing LAMMPS scripts remains highly specialized and time-consuming tasks. Although LLMs show promise in code generation and domain-specific question answering, their performance in MD scenarios is limited by scarce domain data, the high deployment cost of state-of-the-art LLMs, and low code executability. Building upon our prior MDAgent, we present MDAgent2, the first end-to-end framework capable of performing both knowledge Q&A and code generation within the MD domain. We construct a domain-specific data-construction pipeline that yields three high-quality datasets spanning MD knowledge, question answering, and code generation. Based on these datasets, we adopt a three stage post-training strategy--continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL)--to train two domain-adapted models, MD-Instruct and MD-Code. Furthermore, we introduce MD-GRPO, a closed-loop RL method that leverages simulation outcomes as reward signals and recycles low-reward trajectories for continual refinement. We further build MDAgent2-RUNTIME, a deployable multi-agent system that integrates code generation, execution, evaluation, and self-correction. Together with MD-EvalBench proposed in this work, the first benchmark for LAMMPS code generation and question answering, our models and system achieve performance surpassing several strong baselines.This work systematically demonstrates the adaptability and generalization capability of large language models in industrial simulation tasks, laying a methodological foundation for automatic code generation in AI for Science and industrial-scale simulations. URL: https://github.com/FredericVAN/PKU_MDAgent2