Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models

作者: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos Psounis

分类: cs.CL, cs.AI

发布日期: 2023-12-13

💡 一句话要点

提出BD-LLM，通过自举与蒸馏大型语言模型高效检测有害内容。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 有害内容检测 大型语言模型 提示工程 知识蒸馏 自举学习 推理过程 模型压缩

📋 核心要点

现有有害内容检测方法在准确性和跨数据集迁移性方面存在局限性，大型语言模型虽有潜力，但提示设计和运行成本构成挑战。
论文提出BD-LLM方法，通过设计Decision-Tree-of-Thought（DToT）提示策略，自举LLM性能并提取高质量推理过程。
实验结果表明，DToT能提升LLM准确率，且利用DToT提取的推理过程微调后的学生模型，性能超越基线，模型体积更小，迁移性更强。

📝 摘要（中文）

有害内容检测对于在线服务移除违反社区标准的不当内容至关重要。为了自动化检测过程，先前的工作提出了各种机器学习方法来训练语言模型（LM）进行有害内容检测。然而，它们的准确性和跨数据集的可迁移性都受到限制。最近，大型语言模型（LLM）由于其卓越的零样本和少样本上下文学习能力以及在机器学习任务上的广泛可迁移性，在有害内容检测方面显示出前景。然而，为LLM高效设计提示仍然具有挑战性。此外，LLM的高运行时间成本可能会阻碍它们在生产中的部署。为了解决这些挑战，我们提出了一种新颖而有效的方法BD-LLM，用于自举和蒸馏LLM以进行有害内容检测。具体来说，我们设计了一种名为Decision-Tree-of-Thought（DToT）的新型提示方法，以自举LLM的检测性能并提取高质量的理由。当LLM的响应缺乏信心时，DToT可以自动选择更细粒度的上下文来重新提示LLM。此外，我们使用通过DToT提取的理由来微调学生LM。在各种数据集上的实验结果表明，DToT可以将LLM的准确性提高高达4.6%。此外，使用DToT提取的理由进行微调的学生LM在所有数据集上都优于基线，准确性提高了高达16.9%，同时比传统的LLM小60倍以上。最后，我们观察到，使用理由进行微调的学生LM表现出更好的跨数据集可迁移性。

🔬 方法详解

问题定义：论文旨在解决有害内容检测中，现有方法准确率低、迁移性差，以及大型语言模型部署成本高的问题。现有方法难以充分利用LLM的潜力，且缺乏有效的推理过程指导，导致模型性能受限。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大能力，通过精心设计的提示策略（DToT）引导LLM生成高质量的推理过程（rationales），然后将这些推理过程作为知识蒸馏的指导信号，训练更小、更高效的学生模型。这样既能提升检测准确率，又能降低部署成本。

技术框架：BD-LLM方法包含两个主要阶段：1) 使用Decision-Tree-of-Thought (DToT) 提示策略自举LLM，生成高质量的推理过程。DToT根据LLM的置信度动态调整提示内容，当置信度较低时，采用更细粒度的上下文重新提示。2) 使用DToT生成的推理过程作为监督信号，微调学生语言模型。学生模型可以是规模较小的预训练语言模型，例如BERT或RoBERTa。

关键创新：论文的关键创新在于Decision-Tree-of-Thought (DToT) 提示策略。DToT能够根据LLM的置信度自适应地调整提示内容，从而引导LLM生成更准确、更全面的推理过程。与传统的单轮提示相比，DToT能够更有效地利用LLM的知识，提升检测性能。

关键设计：DToT的关键设计包括：1) 置信度评估机制：用于判断LLM对当前响应的置信程度。2) 细粒度上下文选择策略：当置信度较低时，选择更具体的上下文信息重新提示LLM。3) 推理过程提取方法：从LLM的响应中提取关键的推理步骤，作为学生模型的训练数据。学生模型的微调采用交叉熵损失函数，以最小化预测结果与真实标签之间的差异。

📊 实验亮点

实验结果表明，DToT提示策略能够将LLM的准确率提升高达4.6%。使用DToT提取的推理过程微调后的学生模型，在多个数据集上均优于基线模型，准确率提升高达16.9%，同时模型大小缩小超过60倍，显著提升了效率和可部署性。此外，微调后的学生模型表现出更好的跨数据集迁移能力。

🎯 应用场景

该研究成果可广泛应用于各类在线平台的内容审核，例如社交媒体、论坛、电商平台等，能够有效识别和过滤有害信息，维护健康的网络环境。通过降低模型体积和提高推理效率，BD-LLM方法使得LLM在资源受限的场景下部署成为可能，具有重要的实际应用价值。

📄 摘要（原文）

Toxic content detection is crucial for online services to remove inappropriate content that violates community standards. To automate the detection process, prior works have proposed varieties of machine learning (ML) approaches to train Language Models (LMs) for toxic content detection. However, both their accuracy and transferability across datasets are limited. Recently, Large Language Models (LLMs) have shown promise in toxic content detection due to their superior zero-shot and few-shot in-context learning ability as well as broad transferability on ML tasks. However, efficiently designing prompts for LLMs remains challenging. Moreover, the high run-time cost of LLMs may hinder their deployments in production. To address these challenges, in this work, we propose BD-LLM, a novel and efficient approach to Bootstrapping and Distilling LLMs for toxic content detection. Specifically, we design a novel prompting method named Decision-Tree-of-Thought (DToT) to bootstrap LLMs' detection performance and extract high-quality rationales. DToT can automatically select more fine-grained context to re-prompt LLMs when their responses lack confidence. Additionally, we use the rationales extracted via DToT to fine-tune student LMs. Our experimental results on various datasets demonstrate that DToT can improve the accuracy of LLMs by up to 4.6%. Furthermore, student LMs fine-tuned with rationales extracted via DToT outperform baselines on all datasets with up to 16.9\% accuracy improvement, while being more than 60x smaller than conventional LLMs. Finally, we observe that student LMs fine-tuned with rationales exhibit better cross-dataset transferability.

Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册