LLM-Guided Co-Training for Text Classification
作者: Md Mezbaur Rahman, Cornelia Caragea
分类: cs.LG
发布日期: 2025-09-20 (更新: 2025-09-23)
💡 一句话要点
提出LLM引导的协同训练方法,提升文本分类在半监督学习中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本分类 半监督学习 协同训练 大型语言模型 伪标签
📋 核心要点
- 现有半监督学习方法在利用未标注数据时效率较低,尤其是在数据量庞大时,难以充分挖掘信息。
- 利用LLM的知识,为未标注数据生成伪标签,并设计动态加权机制,指导两个编码器网络进行协同训练。
- 实验表明,该方法在多个文本分类数据集上超越了现有半监督学习方法,取得了显著的性能提升。
📝 摘要(中文)
本文提出了一种新颖的由大型语言模型(LLM)引导的加权协同训练方法。在该方法中,我们利用LLM对未标注数据生成的标签作为目标标签,并协同训练两个基于编码器的网络,这两个网络通过多次迭代互相训练:首先,所有样本通过每个网络进行前向传播,并记录每个网络对LLM标签置信度的历史估计;其次,根据每个网络对LLM标签质量的置信度,为每个样本推导出一个动态重要性权重;最后,两个网络相互交换重要性权重——每个网络反向传播所有样本,并使用来自其对等网络的重要性权重进行加权,从而更新其自身参数。通过策略性地利用LLM生成的指导,我们的方法显著优于传统的半监督学习方法,尤其是在具有大量未标注数据的场景中。实验结果表明,该方法在五个基准数据集中的四个上实现了最先进的性能,并且在14种比较方法中,根据Friedman检验排名第一。我们的结果突出了半监督学习的一个新方向——LLM作为知识放大器,使骨干协同训练模型能够高效地实现最先进的性能。
🔬 方法详解
问题定义:论文旨在解决文本分类任务中,半监督学习方法在利用大量未标注数据时性能提升有限的问题。现有方法难以有效利用未标注数据中蕴含的信息,导致模型性能受限。
核心思路:核心思路是利用大型语言模型(LLM)的强大知识,为未标注数据生成伪标签,并将其作为目标标签来指导协同训练过程。通过LLM的指导,模型能够更有效地学习未标注数据中的信息,从而提升分类性能。
技术框架:整体框架包含以下几个主要阶段:1) 使用LLM为未标注数据生成伪标签;2) 初始化两个基于编码器的网络;3) 迭代训练:每个网络对所有样本进行前向传播,评估对LLM标签的置信度,并计算动态重要性权重;两个网络交换重要性权重,并使用对方的权重更新自身参数。
关键创新:关键创新在于将LLM的知识融入到协同训练过程中,并设计了动态重要性权重机制。传统协同训练方法通常平等对待所有未标注数据,而该方法根据网络对LLM标签的置信度动态调整样本权重,从而更有效地利用高质量的伪标签。
关键设计:动态重要性权重的计算基于网络对LLM标签的置信度。具体而言,网络会记录对每个样本LLM标签的置信度历史估计,并根据这些历史估计计算重要性权重。损失函数采用交叉熵损失,优化器采用Adam。网络结构采用Transformer编码器。
📊 实验亮点
实验结果表明,该方法在五个基准文本分类数据集中的四个上取得了最先进的性能。与14种其他方法相比,该方法在Friedman检验中排名第一,表明其性能具有显著优势。尤其是在具有大量未标注数据的场景下,该方法的性能提升更为明显。
🎯 应用场景
该研究成果可广泛应用于各种文本分类任务,尤其是在标注数据稀缺但存在大量未标注数据的场景下,例如情感分析、垃圾邮件检测、新闻分类等。该方法能够有效利用LLM的知识,提升模型性能,降低人工标注成本,具有重要的实际应用价值。
📄 摘要(原文)
In this paper, we introduce a novel weighted co-training approach that is guided by Large Language Models (LLMs). Namely, in our co-training approach, we use LLM labels on unlabeled data as target labels and co-train two encoder-only based networks that train each other over multiple iterations: first, all samples are forwarded through each network and historical estimates of each network's confidence in the LLM label are recorded; second, a dynamic importance weight is derived for each sample according to each network's belief in the quality of the LLM label for that sample; finally, the two networks exchange importance weights with each other -- each network back-propagates all samples weighted with the importance weights coming from its peer network and updates its own parameters. By strategically utilizing LLM-generated guidance, our approach significantly outperforms conventional SSL methods, particularly in settings with abundant unlabeled data. Empirical results show that it achieves state-of-the-art performance on 4 out of 5 benchmark datasets and ranks first among 14 compared methods according to the Friedman test. Our results highlight a new direction in semi-supervised learning -- where LLMs serve as knowledge amplifiers, enabling backbone co-training models to achieve state-of-the-art performance efficiently.