M-BRe: Discovering Training Samples for Relation Extraction from Unlabeled Texts with Large Language Models

📄 arXiv: 2509.07730v2 📥 PDF

作者: Zexuan Li, Hongliang Dai, Piji Li

分类: cs.CL

发布日期: 2025-09-09 (更新: 2025-09-10)

备注: Accepted by EMNLP2025 Main Conference


💡 一句话要点

提出M-BRe框架,利用大语言模型从无标注文本中高效挖掘关系抽取训练样本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关系抽取 大型语言模型 无监督学习 训练数据挖掘 关系分组 自监督学习

📋 核心要点

  1. 现有关系抽取方法依赖大量人工标注数据,成本高昂且难以扩展,尤其是在关系类别较多时。
  2. M-BRe框架结合多类分类和二元分类的优势,通过关系分组、关系抽取和标签决策三个模块,高效挖掘高质量训练样本。
  3. 实验结果表明,M-BRe框架能够有效从无标注文本中提取训练样本,显著提升关系抽取模型的性能。

📝 摘要(中文)

关系抽取(RE)任务中,人工标注训练数据成本高昂,因为包含目标关系的句子在文本中非常稀少且难以发现。因此,开发一种能够自动从无标注文本中提取训练实例以训练RE模型的方法是有益的。最近,大型语言模型(LLM)已被应用于各种自然语言处理任务,RE也受益于其发展。然而,当利用LLM进行具有预定义关系类别的RE时,会出现两个关键挑战。首先,在多类分类设置中,LLM通常难以全面捕捉每个关系的语义,导致次优结果。其次,虽然对每个关系单独采用二元分类可以缓解这个问题,但它会引入显著的计算开销,导致实际应用中时间复杂度不切实际。因此,本文提出了一种名为M-BRe的框架,用于从无标注文本中提取训练实例以进行RE。它利用三个模块来结合上述两种分类方法的优点:关系分组、关系抽取和标签决策。大量实验证实了其在从无标注文本中发现用于RE的高质量训练样本方面的卓越能力。

🔬 方法详解

问题定义:论文旨在解决关系抽取任务中,人工标注训练数据成本高的问题。现有方法要么依赖大量人工标注,要么直接使用LLM进行多分类,前者成本高,后者难以捕捉所有关系的语义,导致性能不佳。此外,对每个关系单独进行二元分类虽然可以缓解语义捕捉问题,但计算复杂度过高,难以实际应用。

核心思路:M-BRe的核心思路是结合多类分类和二元分类的优点,利用关系分组来降低二元分类的计算复杂度,同时利用LLM的语义理解能力来提取候选关系实例,并通过标签决策模块来提高训练样本的质量。这样既能保证关系语义的完整性,又能控制计算成本。

技术框架:M-BRe框架包含三个主要模块:1) 关系分组(Relation Grouping):将语义相似的关系分组,减少后续二元分类的数量。2) 关系抽取(Relation Extraction):利用LLM从无标注文本中提取候选的关系实例。3) 标签决策(Label Decision):对候选实例进行过滤和标注,生成高质量的训练样本。整个流程是从无标注文本开始,经过三个模块的处理,最终得到可用于训练关系抽取模型的数据集。

关键创新:M-BRe的关键创新在于其结合了多类分类和二元分类的优势,并提出了关系分组的概念,有效降低了计算复杂度。与直接使用LLM进行多分类或二元分类的方法相比,M-BRe能够在保证性能的同时,显著降低计算成本。

关键设计:关系分组模块可以使用聚类算法(如K-means)对关系进行分组,分组的数量是一个关键参数,需要根据实际情况进行调整。关系抽取模块可以使用Prompt Engineering技术,引导LLM生成包含特定关系的句子。标签决策模块可以使用阈值过滤和人工校验相结合的方式,确保训练样本的质量。

📊 实验亮点

实验结果表明,M-BRe框架在从无标注文本中挖掘关系抽取训练样本方面表现出色。相较于直接使用LLM进行关系抽取的方法,M-BRe能够显著提升模型性能,尤其是在关系类别较多时。具体性能提升数据未知,但论文强调了其在发现高质量训练样本方面的卓越能力。

🎯 应用场景

M-BRe框架可应用于各种需要关系抽取的场景,例如知识图谱构建、信息检索、智能问答等。通过自动从海量无标注文本中提取训练数据,可以降低人工标注成本,加速关系抽取模型的开发和部署,从而提升相关应用的性能和效率。该方法尤其适用于关系类别较多、标注数据稀缺的场景。

📄 摘要(原文)

For Relation Extraction (RE), the manual annotation of training data may be prohibitively expensive, since the sentences that contain the target relations in texts can be very scarce and difficult to find. It is therefore beneficial to develop an efficient method that can automatically extract training instances from unlabeled texts for training RE models. Recently, large language models (LLMs) have been adopted in various natural language processing tasks, with RE also benefiting from their advances. However, when leveraging LLMs for RE with predefined relation categories, two key challenges arise. First, in a multi-class classification setting, LLMs often struggle to comprehensively capture the semantics of every relation, leading to suboptimal results. Second, although employing binary classification for each relation individually can mitigate this issue, it introduces significant computational overhead, resulting in impractical time complexity for real-world applications. Therefore, this paper proposes a framework called M-BRe to extract training instances from unlabeled texts for RE. It utilizes three modules to combine the advantages of both of the above classification approaches: Relation Grouping, Relation Extraction, and Label Decision. Extensive experiments confirm its superior capability in discovering high-quality training samples from unlabeled texts for RE.