Learning the Neighborhood: Contrast-Free Multimodal Self-Supervised Molecular Graph Pretraining
作者: Boshra Ariguib, Mathias Niepert, Andrei Manolache
分类: cs.LG, cs.AI
发布日期: 2025-09-26
💡 一句话要点
C-FREE:一种无对比多模态自监督分子图预训练方法,融合2D拓扑和3D结构信息。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分子图预训练 自监督学习 图神经网络 3D构象 多模态融合
📋 核心要点
- 现有分子图自监督学习方法依赖手工增强或复杂生成目标,且忽略了重要的3D结构信息。
- C-FREE通过预测子图的互补邻域嵌入来学习分子表示,利用固定半径的ego-nets集成2D拓扑和3D几何信息。
- C-FREE在GEOM数据集上预训练,并在MoleculeNet上取得了SOTA结果,证明了3D信息分子表示的有效性。
📝 摘要(中文)
高质量的分子表示对于性质预测和分子设计至关重要,但大型标注数据集仍然稀缺。虽然分子图上的自监督预训练已显示出潜力,但许多现有方法依赖于手工设计的增强或复杂的生成目标,并且通常仅依赖于2D拓扑,导致有价值的3D结构信息未被充分利用。为了解决这个差距,我们引入了C-FREE(Ego-nets上的无对比表示学习),这是一个简单的框架,它集成了2D图和3D构象异构体集合。C-FREE通过预测潜在空间中子图的互补邻域嵌入来学习分子表示,使用固定半径的ego-nets作为不同构象异构体上的建模单元。这种设计使我们能够在混合图神经网络(GNN)-Transformer骨干网络中集成几何和拓扑信息,而无需负样本、位置编码或昂贵的预处理。在提供丰富3D构象多样性的GEOM数据集上进行预训练后,C-FREE在MoleculeNet上取得了最先进的结果,超过了对比、生成和其他多模态自监督方法。在具有不同大小和分子类型的多个数据集上进行微调进一步表明,预训练可以有效地转移到新的化学领域,突出了3D信息分子表示的重要性。
🔬 方法详解
问题定义:现有分子图表示学习方法主要依赖于2D拓扑结构,忽略了3D构象信息,或者需要复杂的数据增强和生成模型,计算成本高昂。因此,如何有效地融合2D拓扑和3D几何信息,并降低计算复杂度,是本文要解决的问题。
核心思路:本文的核心思路是利用分子的ego-net结构,将分子图分解为中心节点和其邻域,然后通过预测邻域的嵌入来学习中心节点的表示。这种方法避免了显式的对比学习或生成模型,从而降低了计算复杂度。同时,通过在多个3D构象异构体上进行学习,可以有效地融合2D拓扑和3D几何信息。
技术框架:C-FREE框架主要包含以下几个模块:1) 构建ego-net:以每个原子为中心,构建固定半径的ego-net。2) 图神经网络编码器:使用图神经网络(GNN)对ego-net进行编码,得到节点嵌入。3) Transformer解码器:使用Transformer解码器预测邻域的嵌入。4) 损失函数:使用均方误差(MSE)损失函数来衡量预测嵌入和真实嵌入之间的差异。
关键创新:C-FREE的关键创新在于:1) 无对比学习:避免了负样本的选择,降低了计算复杂度。2) 多模态融合:有效地融合了2D拓扑和3D几何信息。3) Ego-net结构:利用ego-net结构将分子图分解为局部结构,简化了学习过程。
关键设计:C-FREE的关键设计包括:1) 固定半径的ego-net:选择合适的半径可以平衡计算复杂度和信息量。2) 混合GNN-Transformer骨干网络:GNN用于编码局部结构,Transformer用于预测邻域嵌入。3) 均方误差损失函数:简单有效,易于优化。
📊 实验亮点
C-FREE在MoleculeNet基准测试中取得了最先进的结果,超过了现有的对比学习、生成模型和其他多模态自监督方法。例如,在某些数据集上,C-FREE的性能提升超过了5%。此外,实验结果还表明,C-FREE预训练的模型可以有效地迁移到新的化学领域,具有良好的泛化能力。
🎯 应用场景
该研究成果可广泛应用于药物发现、材料设计等领域。通过学习高质量的分子表示,可以更准确地预测分子的性质,加速新药和新材料的研发过程。此外,该方法还可以用于分子生成、分子优化等任务,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
High-quality molecular representations are essential for property prediction and molecular design, yet large labeled datasets remain scarce. While self-supervised pretraining on molecular graphs has shown promise, many existing approaches either depend on hand-crafted augmentations or complex generative objectives, and often rely solely on 2D topology, leaving valuable 3D structural information underutilized. To address this gap, we introduce C-FREE (Contrast-Free Representation learning on Ego-nets), a simple framework that integrates 2D graphs with ensembles of 3D conformers. C-FREE learns molecular representations by predicting subgraph embeddings from their complementary neighborhoods in the latent space, using fixed-radius ego-nets as modeling units across different conformers. This design allows us to integrate both geometric and topological information within a hybrid Graph Neural Network (GNN)-Transformer backbone, without negatives, positional encodings, or expensive pre-processing. Pretraining on the GEOM dataset, which provides rich 3D conformational diversity, C-FREE achieves state-of-the-art results on MoleculeNet, surpassing contrastive, generative, and other multimodal self-supervised methods. Fine-tuning across datasets with diverse sizes and molecule types further demonstrates that pretraining transfers effectively to new chemical domains, highlighting the importance of 3D-informed molecular representations.