CoRTEx: Contrastive Learning for Representing Terms via Explanations with Applications on Constructing Biomedical Knowledge Graphs

📄 arXiv: 2312.08036v1 📥 PDF

作者: Huaiyuan Ying, Zhengyun Zhao, Yang Zhao, Sihang Zeng, Sheng Yu

分类: cs.CL

发布日期: 2023-12-13


💡 一句话要点

CoRTEx利用对比学习和LLM解释增强生物医学术语表示,显著提升知识图谱构建中的术语聚类效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学知识图谱 术语聚类 对比学习 大型语言模型 术语表示学习

📋 核心要点

  1. 现有基于UMLS同义词训练的对比学习模型在生物医学术语聚类中面临知识不足和泛化性差的挑战。
  2. CoRTEx利用大型语言模型生成术语解释,通过对比学习对齐术语和解释的嵌入,并引入难负样本,提升术语表示。
  3. 实验表明,CoRTEx在术语聚类任务中取得了显著的F1分数提升,并成功应用于大规模生物医学本体的聚类。

📝 摘要(中文)

生物医学知识图谱在生物医学研究中起着关键作用。术语聚类是构建知识图谱的重要步骤,旨在识别同义术语。以往的对比学习模型使用UMLS同义词进行训练,但由于缺乏知识,难以聚类复杂术语,且泛化能力有限。本文利用大型语言模型(LLM)的世界知识,提出了一种基于解释的术语对比学习方法(CoRTEx),以增强术语表示并显著提高术语聚类效果。该模型使用ChatGPT为UMLS术语子集生成解释,并采用对比学习,同时考虑术语和解释的嵌入,并逐步引入难负样本。此外,设计了一种ChatGPT辅助的BIRCH算法,用于高效聚类新的本体。实验结果表明,CoRTEx在聚类测试集和难负样本测试集上均取得了最高的F1分数。通过CoRTEx嵌入和改进的BIRCH算法,我们将生物医学信息学本体系统(BIOS)中的35,580,932个术语分组为22,104,559个簇,且对ChatGPT的查询复杂度为O(N)。案例研究表明,该模型在解释信息的帮助下,能够有效处理具有挑战性的样本。CoRTEx通过将术语与其解释对齐,展示了优于基准模型的准确性和超出训练集的鲁棒性,适用于大规模生物医学本体的术语聚类。

🔬 方法详解

问题定义:论文旨在解决生物医学知识图谱构建中,现有术语聚类方法在处理复杂术语和泛化到UMLS之外术语时表现不佳的问题。现有方法依赖UMLS同义词,缺乏外部知识,导致难以区分语义相似但表达不同的术语,并且难以适应新的生物医学本体。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成术语的解释,将这些解释作为术语的补充信息,通过对比学习,使术语的嵌入向量与其解释的嵌入向量对齐。这样,模型不仅学习了术语本身的语义信息,还学习了其在更广泛知识背景下的含义,从而提升了术语表示的质量和泛化能力。

技术框架:CoRTEx的整体框架包括以下几个主要阶段:1) 数据准备:清洗UMLS术语,构建训练数据集。2) 解释生成:使用ChatGPT等LLM为UMLS术语生成解释文本。3) 嵌入表示:使用预训练语言模型(如BERT)将术语和解释文本分别编码为嵌入向量。4) 对比学习:构建对比学习目标函数,使相似术语(及其解释)的嵌入向量靠近,不相似术语的嵌入向量远离。5) 难负样本挖掘:在训练过程中,动态挖掘难负样本,提升模型的区分能力。6) 术语聚类:使用CoRTEx学习到的术语嵌入向量,结合改进的BIRCH算法,对大规模生物医学本体进行聚类。

关键创新:CoRTEx最重要的技术创新点在于将LLM生成的解释信息融入到术语表示学习中。与传统的仅依赖术语本身或UMLS同义词的方法相比,CoRTEx利用LLM的外部知识,为术语提供了更丰富的语义信息,从而提升了术语表示的质量和泛化能力。此外,ChatGPT辅助的BIRCH算法也降低了大规模聚类的计算复杂度。

关键设计:在对比学习中,论文采用了InfoNCE损失函数,用于最大化正样本对(术语及其解释)之间的互信息,同时最小化负样本对之间的互信息。为了提升模型的区分能力,论文逐步引入难负样本,即与目标术语语义相似但表达不同的术语。此外,论文还设计了一种ChatGPT辅助的BIRCH算法,通过少量查询ChatGPT来指导BIRCH算法的聚类过程,从而降低了计算复杂度。

📊 实验亮点

CoRTEx在自建的聚类测试集和难负样本测试集上均取得了最高的F1分数,证明了其优越的性能。通过CoRTEx嵌入和改进的BIRCH算法,成功将BIOS中的35,580,932个术语分组为22,104,559个簇,且对ChatGPT的查询复杂度为O(N),表明其具有处理大规模数据的能力。案例研究也验证了CoRTEx在处理复杂术语方面的有效性。

🎯 应用场景

CoRTEx在生物医学领域具有广泛的应用前景,可用于构建高质量的生物医学知识图谱,辅助药物研发、疾病诊断和个性化治疗。通过对生物医学术语进行准确聚类,可以发现新的关联关系,促进知识发现和创新。此外,该方法还可以应用于其他领域的术语标准化和知识图谱构建。

📄 摘要(原文)

Objective: Biomedical Knowledge Graphs play a pivotal role in various biomedical research domains. Concurrently, term clustering emerges as a crucial step in constructing these knowledge graphs, aiming to identify synonymous terms. Due to a lack of knowledge, previous contrastive learning models trained with Unified Medical Language System (UMLS) synonyms struggle at clustering difficult terms and do not generalize well beyond UMLS terms. In this work, we leverage the world knowledge from Large Language Models (LLMs) and propose Contrastive Learning for Representing Terms via Explanations (CoRTEx) to enhance term representation and significantly improves term clustering. Materials and Methods: The model training involves generating explanations for a cleaned subset of UMLS terms using ChatGPT. We employ contrastive learning, considering term and explanation embeddings simultaneously, and progressively introduce hard negative samples. Additionally, a ChatGPT-assisted BIRCH algorithm is designed for efficient clustering of a new ontology. Results: We established a clustering test set and a hard negative test set, where our model consistently achieves the highest F1 score. With CoRTEx embeddings and the modified BIRCH algorithm, we grouped 35,580,932 terms from the Biomedical Informatics Ontology System (BIOS) into 22,104,559 clusters with O(N) queries to ChatGPT. Case studies highlight the model's efficacy in handling challenging samples, aided by information from explanations. Conclusion: By aligning terms to their explanations, CoRTEx demonstrates superior accuracy over benchmark models and robustness beyond its training set, and it is suitable for clustering terms for large-scale biomedical ontologies.