Toxicity in Online Platforms and AI Systems: A Survey of Needs, Challenges, Mitigations, and Future Directions

📄 arXiv: 2509.25539v1 📥 PDF

作者: Smita Khapre, Melkamu Abay Mersha, Hassan Shakil, Jonali Baruah, Jugal Kalita

分类: cs.CY, cs.AI, cs.CL, cs.HC, cs.SI

发布日期: 2025-09-29

DOI: 10.1016/j.eswa.2025.129832


💡 一句话要点

提出在线平台和AI系统中内容毒性的综合分类,并探讨检测与缓解策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线毒性 内容审核 人工智能安全 大型语言模型 自然语言处理

📋 核心要点

  1. 现有方法在检测和缓解在线平台及AI系统中的内容毒性时,缺乏全面的分类体系和主动策略。
  2. 论文旨在通过构建全面的毒性分类体系,并从多个角度理解毒性,从而为设计更有效的检测和缓解方案奠定基础。
  3. 论文总结了现有毒性数据集和相关研究,并指出了在数据集、缓解策略、可解释性等方面存在的差距,为未来研究方向提供参考。

📝 摘要(中文)

数字通信系统和在线平台的设计在无意中助长了有害行为的传播,进而引发对这些行为的反应。在线内容和人工智能系统中的毒性已成为全球个人和集体福祉面临的严峻挑战,其危害程度远超我们的认知。毒性可以通过语言、图像和视频等形式表达,并且其含义会因使用环境而异。因此,建立全面的毒性分类体系对于主动检测和缓解在线内容、人工智能系统和/或大型语言模型中的毒性至关重要。对毒性的全面理解有助于设计实用的毒性检测和缓解方案。已发表的文献中的分类仅关注这一复杂问题的有限几个方面,并且主要采用被动反应策略。本综述旨在从多个角度构建全面的毒性分类体系,并提出一种整体方法,通过理解人工智能时代社会面临的背景和环境来解释毒性。本综述总结了与毒性相关的数据集以及针对大型语言模型、社交媒体平台和其他在线平台的毒性检测和缓解研究,详细介绍了它们在文本模式下的属性,主要关注英语。最后,我们根据数据集、缓解策略、大型语言模型、适应性、可解释性和评估等方面,提出了毒性缓解方面的研究差距。

🔬 方法详解

问题定义:论文旨在解决在线平台和人工智能系统中日益严重的毒性内容问题。现有方法主要存在以下痛点:一是缺乏对毒性的全面理解和分类,导致检测和缓解策略不够精准;二是现有策略多为被动反应,无法有效预防毒性内容的产生和传播;三是针对大型语言模型的毒性检测和缓解研究仍存在诸多挑战,例如适应性、可解释性等方面的问题。

核心思路:论文的核心思路是构建一个全面的毒性分类体系,从多个角度理解毒性,包括语言、图像、视频等多种形式,并考虑上下文环境的影响。基于此分类体系,可以设计更有效的毒性检测和缓解策略,并针对大型语言模型进行优化。此外,论文还强调了主动预防的重要性,旨在从源头上减少毒性内容的产生。

技术框架:论文采用综述的形式,对现有文献进行梳理和总结,并未提出具体的算法或模型。其框架主要包括以下几个阶段:首先,对毒性进行定义和分类,构建全面的毒性分类体系;其次,总结现有毒性数据集和相关研究,分析其优缺点;然后,针对大型语言模型,探讨毒性检测和缓解的挑战和策略;最后,指出研究差距,并提出未来研究方向。

关键创新:论文的主要创新在于提出了一个全面的毒性分类体系,该体系考虑了毒性的多种形式和上下文环境的影响,为后续研究提供了理论基础。此外,论文还强调了主动预防的重要性,并针对大型语言模型提出了具体的挑战和策略。

关键设计:由于是综述论文,没有具体的技术细节。但是,论文在分类体系的构建上,考虑了语言、图像、视频等多种模态,并强调了上下文环境的重要性。在缓解策略方面,论文强调了主动预防的重要性,并针对大型语言模型提出了适应性和可解释性等方面的要求。

📊 实验亮点

该论文的主要亮点在于对在线平台和AI系统中的毒性进行了全面的综述,并提出了一个综合的毒性分类框架。通过总结现有数据集和研究,论文清晰地指出了当前研究的局限性,并为未来的研究方向提供了有价值的指导。

🎯 应用场景

该研究成果可应用于社交媒体平台、在线论坛、评论区等各种在线平台,用于检测和过滤有害信息,维护健康的网络环境。同时,该研究对人工智能系统的安全性具有重要意义,有助于开发更加安全可靠的AI产品,避免AI被用于传播有害信息。

📄 摘要(原文)

The evolution of digital communication systems and the designs of online platforms have inadvertently facilitated the subconscious propagation of toxic behavior. Giving rise to reactive responses to toxic behavior. Toxicity in online content and Artificial Intelligence Systems has become a serious challenge to individual and collective well-being around the world. It is more detrimental to society than we realize. Toxicity, expressed in language, image, and video, can be interpreted in various ways depending on the context of usage. Therefore, a comprehensive taxonomy is crucial to detect and mitigate toxicity in online content, Artificial Intelligence systems, and/or Large Language Models in a proactive manner. A comprehensive understanding of toxicity is likely to facilitate the design of practical solutions for toxicity detection and mitigation. The classification in published literature has focused on only a limited number of aspects of this very complex issue, with a pattern of reactive strategies in response to toxicity. This survey attempts to generate a comprehensive taxonomy of toxicity from various perspectives. It presents a holistic approach to explain the toxicity by understanding the context and environment that society is facing in the Artificial Intelligence era. This survey summarizes the toxicity-related datasets and research on toxicity detection and mitigation for Large Language Models, social media platforms, and other online platforms, detailing their attributes in textual mode, focused on the English language. Finally, we suggest the research gaps in toxicity mitigation based on datasets, mitigation strategies, Large Language Models, adaptability, explainability, and evaluation.