Structure-Aware Contrastive Learning with Fine-Grained Binding Representations for Drug Discovery

📄 arXiv: 2509.14788v1 📥 PDF

作者: Jing Lan, Hexiao Ding, Hongzhao Chen, Yufeng Jiang, Nga-Chun Ng, Gwing Kei Yip, Gerald W. Y. Cheng, Yunlin Mao, Jing Cai, Liang-ting Lin, Jung Sun Yoo

分类: cs.LG, cs.AI, q-bio.BM

发布日期: 2025-09-18


💡 一句话要点

提出结构感知对比学习框架,结合精细结合表征,提升药物发现中DTI预测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 药物-靶标相互作用预测 对比学习 结构感知 药物发现 虚拟筛选

📋 核心要点

  1. 现有基于序列的DTI预测方法缺乏结构信息,限制了预测准确性,尤其是在复杂相互作用场景下。
  2. 该论文提出一种结构感知的对比学习框架,通过整合结构先验知识增强蛋白质表征,提升DTI预测性能。
  3. 实验表明,该模型在多个数据集上超越现有方法,并在虚拟筛选任务中取得显著提升,验证了框架的有效性。

📝 摘要(中文)

药物-靶标相互作用(DTI)的准确识别仍然是计算药理学中的核心挑战,其中基于序列的方法提供了可扩展性。本研究提出了一种基于序列的药物-靶标相互作用框架,该框架将结构先验知识整合到蛋白质表征中,同时保持高通量筛选能力。在多个基准数据集上评估,该模型在Human和BioSNAP数据集上取得了最先进的性能,并在BindingDB上保持了竞争力。在虚拟筛选任务中,它超越了LIT-PCBA上的现有方法,在AUROC和BEDROC方面产生了显著的提升。消融研究证实了学习到的聚合、双线性注意力和对比对齐在增强预测鲁棒性方面的关键作用。嵌入可视化显示,与已知的结合口袋具有更好的空间对应性,并突出了配体-残基接触的可解释注意力模式。这些结果验证了该框架在可扩展和结构感知的DTI预测中的效用。

🔬 方法详解

问题定义:论文旨在解决药物发现中药物-靶标相互作用(DTI)预测的准确性问题。现有基于序列的方法虽然具有可扩展性,但忽略了蛋白质的结构信息,导致预测精度受限,尤其是在处理复杂的药物-靶标相互作用时。因此,如何有效地将结构信息融入到基于序列的DTI预测模型中,是本文要解决的核心问题。

核心思路:论文的核心思路是将蛋白质的结构先验知识融入到蛋白质的序列表征中,从而提高DTI预测的准确性。具体来说,通过对比学习的方式,将蛋白质序列编码与结构信息对齐,使得模型能够学习到更具结构感知的蛋白质表征。这种方法既保留了序列方法的可扩展性,又利用了结构信息的优势。

技术框架:该框架主要包含以下几个模块:1) 蛋白质序列编码模块,用于将蛋白质序列转化为向量表示;2) 结构信息编码模块,用于提取蛋白质的结构特征;3) 对比学习模块,通过对比学习损失函数,将序列编码和结构信息对齐;4) DTI预测模块,基于学习到的蛋白质表征,预测药物-靶标之间的相互作用。整体流程是:首先对蛋白质序列和结构信息进行编码,然后通过对比学习进行对齐,最后利用对齐后的表征进行DTI预测。

关键创新:该论文的关键创新在于将结构先验知识以对比学习的方式融入到基于序列的DTI预测模型中。与传统的直接将结构信息作为输入特征的方法不同,该方法通过对比学习,使得模型能够自动学习到序列和结构之间的关联,从而更好地利用结构信息。此外,论文还提出了精细的结合表征方法,进一步提升了模型的预测性能。

关键设计:在对比学习模块中,使用了InfoNCE损失函数,用于最大化正样本之间的相似度,最小化负样本之间的相似度。在蛋白质序列编码模块中,使用了Transformer模型,用于捕捉序列中的长程依赖关系。在结构信息编码模块中,使用了图神经网络,用于提取蛋白质的结构特征。此外,论文还设计了双线性注意力机制,用于捕捉药物和靶标之间的相互作用。

📊 实验亮点

该模型在Human和BioSNAP数据集上取得了state-of-the-art的性能,并在BindingDB数据集上保持了竞争力。在LIT-PCBA虚拟筛选任务中,AUROC和BEDROC指标均超越了现有方法,取得了显著提升。消融实验验证了学习到的聚合、双线性注意力和对比对齐在提升预测鲁棒性方面的关键作用。

🎯 应用场景

该研究成果可应用于药物发现的早期阶段,用于高通量筛选潜在的药物-靶标相互作用。通过提高DTI预测的准确性,可以减少湿实验的次数,降低药物研发的成本和时间。此外,该方法还可以用于预测药物的副作用和毒性,从而提高药物的安全性。

📄 摘要(原文)

Accurate identification of drug-target interactions (DTI) remains a central challenge in computational pharmacology, where sequence-based methods offer scalability. This work introduces a sequence-based drug-target interaction framework that integrates structural priors into protein representations while maintaining high-throughput screening capability. Evaluated across multiple benchmarks, the model achieves state-of-the-art performance on Human and BioSNAP datasets and remains competitive on BindingDB. In virtual screening tasks, it surpasses prior methods on LIT-PCBA, yielding substantial gains in AUROC and BEDROC. Ablation studies confirm the critical role of learned aggregation, bilinear attention, and contrastive alignment in enhancing predictive robustness. Embedding visualizations reveal improved spatial correspondence with known binding pockets and highlight interpretable attention patterns over ligand-residue contacts. These results validate the framework's utility for scalable and structure-aware DTI prediction.