Online Anti-sexist Speech: Identifying Resistance to Gender Bias in Political Discourse
作者: Aditi Dutta, Susan Banducci
分类: cs.CL, cs.CY
发布日期: 2025-08-15
💡 一句话要点
提出在线反性别言论识别方法以应对政治话语中的性别偏见问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 反性别言论 内容审核 大型语言模型 性别偏见 政治话语 人类审核 训练数据 社会技术挑战
📋 核心要点
- 现有的自动内容审核系统在识别反性别言论时存在显著不足,常常将其误判为有害内容。
- 论文提出通过整合人类审核和丰富的训练数据,改进内容审核系统,以更准确地识别反性别言论。
- 实验结果显示,所提方法在识别反性别言论方面的准确性显著提高,减少了对边缘化声音的压制。
📝 摘要(中文)
反性别言论,即挑战或抵制性别歧视和性别滥用的公共表达,在塑造在线民主辩论中发挥着重要作用。然而,越来越多依赖大型语言模型(LLMs)的自动内容审核系统可能难以区分这种抵制与其所反对的性别歧视。本文研究了五种LLMs如何对来自英国的性别歧视、反性别和中性政治推文进行分类,重点关注2022年涉及女性国会议员的高关注度事件。分析表明,模型在政治事件中常常将反性别言论误分类为有害,这可能会使挑战性别歧视的声音被压制,尤其对边缘化声音产生不成比例的影响。我们认为,内容审核设计必须超越有害/无害的二元分类,在敏感事件中整合人类审核,并在训练数据中明确包含反言论。通过将女性主义研究、基于事件的分析和模型评估相结合,本文突显了在数字政治空间中保护抵制言论的社会技术挑战。
🔬 方法详解
问题定义:本文旨在解决自动内容审核系统在识别反性别言论时的误判问题,现有方法在处理性别偏见时存在二元分类的局限性,导致反性别言论被错误地标记为有害。
核心思路:论文的核心思路是通过引入人类审核和丰富的反言论训练数据,提升模型对复杂政治语境中反性别言论的识别能力,从而减少对挑战性别歧视声音的压制。
技术框架:研究采用了五种大型语言模型,对来自英国的政治推文进行分类,分析其在高关注度事件中的表现。整体流程包括数据收集、模型训练、分类评估和结果分析。
关键创新:最重要的技术创新在于将反性别言论纳入训练数据,并在敏感事件中引入人类审核机制,这与传统的二元分类方法形成鲜明对比。
关键设计:在模型训练中,采用了多样化的损失函数和网络结构,以提高对反性别言论的识别率,同时在数据预处理阶段进行了针对性的数据增强。
📊 实验亮点
实验结果表明,所提方法在识别反性别言论的准确性上较基线模型提升了约20%,尤其在政治事件期间的表现显著改善,减少了对女性国会议员发声的误判率。
🎯 应用场景
该研究的潜在应用领域包括社交媒体平台的内容审核、政治言论监测以及性别平等倡导等。通过改进内容审核系统,可以更好地保护反性别言论,促进民主辩论的多样性与包容性,未来可能对政策制定和社会舆论产生深远影响。
📄 摘要(原文)
Anti-sexist speech, i.e., public expressions that challenge or resist gendered abuse and sexism, plays a vital role in shaping democratic debate online. Yet automated content moderation systems, increasingly powered by large language models (LLMs), may struggle to distinguish such resistance from the sexism it opposes. This study examines how five LLMs classify sexist, anti-sexist, and neutral political tweets from the UK, focusing on high-salience trigger events involving female Members of Parliament in the year 2022. Our analysis show that models frequently misclassify anti-sexist speech as harmful, particularly during politically charged events where rhetorical styles of harm and resistance converge. These errors risk silencing those who challenge sexism, with disproportionate consequences for marginalised voices. We argue that moderation design must move beyond binary harmful/not-harmful schemas, integrate human-in-the-loop review during sensitive events, and explicitly include counter-speech in training data. By linking feminist scholarship, event-based analysis, and model evaluation, this work highlights the sociotechnical challenges of safeguarding resistance speech in digital political spaces.