DrugAssist: A Large Language Model for Molecule Optimization

📄 arXiv: 2401.10334v1 📥 PDF

作者: Geyan Ye, Xibao Cai, Houtim Lai, Xing Wang, Junhong Huang, Longyue Wang, Wei Liu, Xiangxiang Zeng

分类: q-bio.QM, cs.AI, cs.CL, cs.LG

发布日期: 2023-12-28

备注: Geyan Ye and Xibao Cai are equal contributors; Longyue Wang is corresponding author

🔗 代码/项目: GITHUB


💡 一句话要点

DrugAssist:一种用于分子优化的大语言模型,实现人机交互式优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分子优化 大型语言模型 人机交互 药物发现 指令微调

📋 核心要点

  1. 现有分子优化方法缺乏与专家的交互,忽略了药物发现中专家经验和迭代优化的重要性。
  2. DrugAssist利用LLM的交互性和泛化能力,通过人机对话实现分子优化,整合专家反馈。
  3. DrugAssist在单属性和多属性优化上取得领先结果,并展示了良好的可迁移性和迭代优化潜力。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在各种任务中表现出色,吸引了越来越多的尝试将其应用于药物发现。然而,分子优化是药物发现流程中的关键任务,目前LLMs在该领域的应用还很少。现有方法大多只关注于捕获数据提供的化学结构中的潜在模式,而没有利用专家反馈。这些非交互式方法忽略了药物发现过程实际上需要整合专家经验和迭代改进。为了解决这一差距,我们提出了DrugAssist,一种交互式分子优化模型,它利用LLM强大的交互性和泛化性,通过人机对话进行优化。DrugAssist在单属性和多属性优化方面都取得了领先的结果,同时展示了在可迁移性和迭代优化方面的巨大潜力。此外,我们公开发布了一个大型的基于指令的数据集MolOpt-Instructions,用于在分子优化任务上微调语言模型。我们的代码和数据已在https://github.com/blazerye/DrugAssist上公开,我们希望这能为未来LLMs在药物发现中的应用研究铺平道路。

🔬 方法详解

问题定义:论文旨在解决药物发现中的分子优化问题。现有方法主要依赖于数据中的化学结构模式,缺乏与专家的交互,无法有效利用专家经验进行迭代优化,导致优化效果受限。

核心思路:论文的核心思路是构建一个交互式的分子优化模型DrugAssist,该模型利用大型语言模型(LLM)的强大交互性和泛化能力,通过人机对话的方式进行分子优化。通过与专家的对话,模型可以获取反馈并进行迭代改进,从而更有效地优化分子性质。

技术框架:DrugAssist的核心是一个经过微调的LLM,该LLM接受指令输入,并生成优化的分子结构。用户(专家)可以与模型进行对话,提供反馈或修改建议。模型根据反馈调整优化策略,并生成新的分子结构。整个流程是一个迭代的过程,直到满足优化目标。论文还发布了一个名为MolOpt-Instructions的大型指令数据集,用于微调LLM。

关键创新:DrugAssist的关键创新在于引入了人机交互的分子优化模式。与传统的非交互式方法相比,DrugAssist能够更好地利用专家知识,实现更有效的分子优化。此外,MolOpt-Instructions数据集的发布也为LLM在分子优化领域的应用提供了宝贵的数据资源。

关键设计:MolOpt-Instructions数据集包含大量的指令-分子对,用于指导LLM学习分子优化任务。LLM的微调采用了标准的指令微调方法,目标是使模型能够根据指令生成符合要求的分子结构。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

DrugAssist在单属性和多属性优化任务上取得了领先的结果,证明了其在分子优化方面的有效性。论文同时强调了DrugAssist在可迁移性和迭代优化方面的潜力,表明该模型具有良好的泛化能力和适应性。MolOpt-Instructions数据集的发布也为相关研究提供了重要的数据支持。

🎯 应用场景

DrugAssist可应用于药物发现流程中的分子优化环节,帮助研究人员快速有效地优化候选药物的性质,例如活性、选择性和毒性。通过与专家的交互,DrugAssist可以加速药物发现进程,降低研发成本,并提高新药研发的成功率。未来,该模型有望扩展到其他化学领域的分子设计和优化任务中。

📄 摘要(原文)

Recently, the impressive performance of large language models (LLMs) on a wide range of tasks has attracted an increasing number of attempts to apply LLMs in drug discovery. However, molecule optimization, a critical task in the drug discovery pipeline, is currently an area that has seen little involvement from LLMs. Most of existing approaches focus solely on capturing the underlying patterns in chemical structures provided by the data, without taking advantage of expert feedback. These non-interactive approaches overlook the fact that the drug discovery process is actually one that requires the integration of expert experience and iterative refinement. To address this gap, we propose DrugAssist, an interactive molecule optimization model which performs optimization through human-machine dialogue by leveraging LLM's strong interactivity and generalizability. DrugAssist has achieved leading results in both single and multiple property optimization, simultaneously showcasing immense potential in transferability and iterative optimization. In addition, we publicly release a large instruction-based dataset called MolOpt-Instructions for fine-tuning language models on molecule optimization tasks. We have made our code and data publicly available at https://github.com/blazerye/DrugAssist, which we hope to pave the way for future research in LLMs' application for drug discovery.