Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models
作者: Nishant Vishwamitra, Keyan Guo, Farhan Tajwar Romit, Isabelle Ondracek, Long Cheng, Ziming Zhao, Hongxin Hu
分类: cs.CL, cs.CY, cs.LG, cs.SI
发布日期: 2023-12-22 (更新: 2024-05-10)
备注: To Appear in the 45th IEEE Symposium on Security and Privacy, May 20-23, 2024
DOI: 10.1109/SP54263.2024.00181
💡 一句话要点
提出HATEGUARD框架,利用思维链推理的大语言模型应对新型网络仇恨浪潮。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络仇恨检测 大型语言模型 思维链推理 零样本学习 提示工程
📋 核心要点
- 现有网络仇恨检测方法难以快速适应由突发事件驱动的新型仇恨言论,缺乏有效的推理能力。
- HATEGUARD利用思维链提示的大语言模型,通过自动生成和更新提示来零样本检测新型仇恨言论。
- 实验表明,HATEGUARD在检测乌克兰战争、国会山事件和新冠疫情相关的新型仇恨言论方面,显著优于现有方法。
📝 摘要(中文)
网络仇恨是一个日益严重的问题,它对互联网用户的生活产生负面影响,并且由于不断变化的事件而迅速变化,导致新的网络仇恨浪潮,构成严重威胁。检测和缓解这些新浪潮面临两个关键挑战:需要基于推理的复杂决策来确定是否存在仇恨内容,以及训练样本的有限性阻碍了检测模型的更新。为了解决这个关键问题,我们提出了一个名为HATEGUARD的新框架,用于有效调节新的网络仇恨浪潮。HATEGUARD采用基于推理的方法,利用最近引入的思维链(CoT)提示技术,利用大型语言模型(LLM)的能力。HATEGUARD通过自动生成和更新检测提示,其中包含新浪潮样本中的新贬义词和目标,从而实现基于提示的零样本检测,从而有效应对新的网络仇恨浪潮。为了证明我们方法的有效性,我们编制了一个新的数据集,其中包含与最近目睹的三个新浪潮相关的推文:2022年俄罗斯入侵乌克兰、2021年美国国会大厦叛乱和COVID-19大流行。我们的研究揭示了这些新浪潮中关于事件演变的关键纵向模式,以及迫切需要快速更新现有调节工具以应对它们的必要性。与最先进工具的比较评估表明了我们框架的优越性,在检测三种新的网络仇恨浪潮方面,性能提升了22.22%到83.33%。我们的工作强调了新出现的网络仇恨浪潮构成的严重威胁,并代表了在实践中应对这一威胁的范式转变。
🔬 方法详解
问题定义:论文旨在解决传统网络仇恨检测方法难以适应快速涌现的新型仇恨言论的问题。这些新型仇恨言论往往与突发事件相关,例如俄乌战争、美国国会山事件和新冠疫情等。现有方法依赖于大量标注数据进行训练,无法快速适应这些新出现的仇恨表达方式,且缺乏基于推理的复杂决策能力。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大推理能力和零样本学习能力,通过思维链(Chain-of-Thought, CoT)提示,引导LLM进行逐步推理,从而更准确地识别新型仇恨言论。同时,通过自动生成和更新检测提示,使模型能够快速适应新的仇恨表达方式。
技术框架:HATEGUARD框架主要包含以下几个阶段:1) 数据收集:收集与特定事件相关的新型仇恨言论数据。2) 提示生成:自动生成包含新贬义词和目标的检测提示。3) 思维链推理:利用CoT提示,引导LLM对文本进行逐步推理,判断其是否包含仇恨言论。4) 结果评估:评估LLM的检测结果,并根据评估结果调整提示。
关键创新:HATEGUARD的关键创新在于:1) 基于思维链推理:利用LLM的推理能力,提高仇恨言论检测的准确性。2) 自动提示生成与更新:无需人工干预,即可快速适应新型仇恨言论。3) 零样本检测:无需大量标注数据,即可进行有效检测。
关键设计:HATEGUARD的关键设计包括:1) CoT提示的设计:设计有效的CoT提示,引导LLM进行正确的推理。例如,提示可以包含一系列问题,引导LLM分析文本中的仇恨言论目标、意图和表达方式。2) 自动提示生成策略:设计自动提示生成策略,从新型仇恨言论样本中提取新的贬义词和目标,并将其添加到提示中。3) LLM的选择:选择具有强大推理能力和零样本学习能力的LLM,例如GPT-3或LaMDA。论文中具体使用的LLM信息未知。
📊 实验亮点
实验结果表明,HATEGUARD在检测三种新型网络仇恨浪潮(乌克兰战争、国会山事件和新冠疫情)方面,相比现有最先进的工具,性能提升了22.22%到83.33%。这表明HATEGUARD能够有效应对新型仇恨言论,并显著优于传统方法。具体的基线模型和评估指标未知,但提升幅度表明了HATEGUARD的有效性。
🎯 应用场景
HATEGUARD可应用于社交媒体平台、在线论坛、新闻评论区等场景,用于自动检测和过滤新型网络仇恨言论,维护健康的网络环境。该研究有助于提升在线内容审核的效率和准确性,减少人工审核的压力,并为应对快速变化的社会事件提供更有效的舆情监控手段。未来,该技术可扩展到其他类型的有害内容检测,例如虚假信息和网络欺凌。
📄 摘要(原文)
Online hate is an escalating problem that negatively impacts the lives of Internet users, and is also subject to rapid changes due to evolving events, resulting in new waves of online hate that pose a critical threat. Detecting and mitigating these new waves present two key challenges: it demands reasoning-based complex decision-making to determine the presence of hateful content, and the limited availability of training samples hinders updating the detection model. To address this critical issue, we present a novel framework called HATEGUARD for effectively moderating new waves of online hate. HATEGUARD employs a reasoning-based approach that leverages the recently introduced chain-of-thought (CoT) prompting technique, harnessing the capabilities of large language models (LLMs). HATEGUARD further achieves prompt-based zero-shot detection by automatically generating and updating detection prompts with new derogatory terms and targets in new wave samples to effectively address new waves of online hate. To demonstrate the effectiveness of our approach, we compile a new dataset consisting of tweets related to three recently witnessed new waves: the 2022 Russian invasion of Ukraine, the 2021 insurrection of the US Capitol, and the COVID-19 pandemic. Our studies reveal crucial longitudinal patterns in these new waves concerning the evolution of events and the pressing need for techniques to rapidly update existing moderation tools to counteract them. Comparative evaluations against state-of-the-art tools illustrate the superiority of our framework, showcasing a substantial 22.22% to 83.33% improvement in detecting the three new waves of online hate. Our work highlights the severe threat posed by the emergence of new waves of online hate and represents a paradigm shift in addressing this threat practically.