DrugPlayGround: Benchmarking Large Language Models and Embeddings for Drug Discovery

📄 arXiv: 2604.02346 📥 PDF

作者: Tianyu Liu, Sihan Jiang, Fan Zhang, Kunyang Sun, Teresa Head-Gordon, Hongyu Zhao

分类: cs.LG, cs.AI, cs.SE, bio.BM

发布日期: 2026-04-06


💡 一句话要点

DrugPlayGround:用于药物发现的大语言模型与嵌入基准测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 药物发现 大型语言模型 基准测试 药物-蛋白质相互作用 药物协同作用

📋 核心要点

  1. 现有药物发现平台缺乏对大型语言模型(LLMs)性能的客观评估,难以确定其优势与局限性。
  2. DrugPlayGround框架旨在评估LLMs在药物理化性质描述、药物协同作用、药物-蛋白质相互作用等方面的性能。
  3. 该框架通过与领域专家合作,提供LLM预测的详细解释,从而测试LLMs的化学和生物推理能力。

📝 摘要(中文)

大型语言模型(LLMs)在药物发现研究中日益重要,通过加速假设生成、优化候选药物优先级排序以及实现更具可扩展性和成本效益的药物发现流程,为重塑药物研究提供了前所未有的机会。然而,目前缺乏对LLM性能的客观评估,以确定其相对于传统药物发现平台的优势和局限性。为了解决这个新出现的问题,我们开发了DrugPlayGround,一个用于评估和基准测试LLM性能的框架,旨在生成基于文本的、有意义的药物理化特性、药物协同作用、药物-蛋白质相互作用以及药物分子引入的扰动引起的生理反应的描述。此外,DrugPlayGround被设计为与领域专家合作,为LLM的预测提供详细的解释,从而测试LLM的化学和生物推理能力,以推动其在药物发现各个阶段的更广泛应用。

🔬 方法详解

问题定义:现有药物发现流程中,大型语言模型(LLMs)的应用潜力巨大,但缺乏客观的评估标准来衡量其性能,无法有效判断LLMs在药物发现各环节的适用性和优劣势。传统药物发现平台难以充分利用LLMs的推理和生成能力。

核心思路:构建一个全面的基准测试框架,即DrugPlayGround,用于评估LLMs在药物发现相关任务中的表现。通过设计一系列任务,例如生成药物特性描述、预测药物协同作用、推断药物-蛋白质相互作用等,来考察LLMs的文本生成和推理能力。同时,引入领域专家进行验证,确保LLMs的预测结果具有生物学和化学意义。

技术框架:DrugPlayGround框架包含以下几个主要模块:1) 数据集构建模块,收集和整理药物相关的各类数据,包括理化性质、相互作用、生理反应等;2) 任务定义模块,将药物发现过程中的关键问题转化为具体的文本生成或推理任务;3) LLM评估模块,利用预训练的LLMs完成定义的任务,并根据预设的指标进行评估;4) 专家验证模块,邀请领域专家对LLMs的预测结果进行验证和解释,确保结果的合理性。

关键创新:DrugPlayGround的关键创新在于其综合性和可解释性。它不仅提供了一系列全面的评估任务,还强调了结果的可解释性,通过领域专家的参与,确保LLMs的预测结果具有实际意义。与以往的评估方法相比,DrugPlayGround更注重考察LLMs在药物发现领域的实际应用能力。

关键设计:DrugPlayGround在任务设计上,考虑了药物发现的多个关键环节,包括药物性质描述、药物相互作用预测、药物-蛋白质结合预测等。评估指标包括文本生成质量、预测准确率、专家认可度等。具体参数设置和损失函数选择取决于所使用的LLM模型和具体的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DrugPlayGround框架通过一系列实验,对LLMs在药物发现相关任务中的性能进行了全面评估。实验结果表明,不同的LLMs在不同任务中表现各异,某些LLMs在特定任务上表现出较强的文本生成和推理能力。该框架还通过与领域专家合作,验证了LLMs预测结果的合理性,为LLMs在药物发现领域的应用提供了有价值的参考。

🎯 应用场景

DrugPlayGround可应用于评估和优化用于药物发现的大型语言模型,加速新药研发进程。通过客观的基准测试,研究人员可以更好地选择和调整LLMs,提高药物发现的效率和成功率。该框架还有助于推动LLMs在药物发现领域的更广泛应用,例如靶点发现、先导化合物优化等。

📄 摘要(原文)

Large language models (LLMs) are in the ascendancy for research in drug discovery, offering unprecedented opportunities to reshape drug research by accelerating hypothesis generation, optimizing candidate prioritization, and enabling more scalable and cost-effective drug discovery pipelines. However there is currently a lack of objective assessments of LLM performance to ascertain their advantages and limitations over traditional drug discovery platforms. To tackle this emergent problem, we have developed DrugPlayGround, a framework to evaluate and benchmark LLM performance for generating meaningful text-based descriptions of physiochemical drug characteristics, drug synergism, drug-protein interactions, and the physiological response to perturbations introduced by drug molecules. Moreover, DrugPlayGround is designed to work with domain experts to provide detailed explanations for justifying the predictions of LLMs, thereby testing LLMs for chemical and biological reasoning capabilities to push their greater use at the frontier of drug discovery at all of its stages.