ToxicTAGS: Decoding Toxic Memes with Rich Tag Annotations

📄 arXiv: 2508.04166v1 📥 PDF

作者: Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee

分类: cs.CV, cs.CL

发布日期: 2025-08-06


💡 一句话要点

提出ToxicTAGS以解决有害表情包内容的标注与检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表情包审核 有害内容检测 多模态数据集 标签生成 社会相关标签

📋 核心要点

  1. 现有的表情包内容审核系统面临数据获取困难和高成本的问题,限制了其有效性。
  2. 本文提出了一个包含6300个真实表情包的标注数据集,并引入了标签生成模块以增强上下文信息。
  3. 实验结果表明,使用社会相关标签显著提升了视觉语言模型在有害内容检测任务中的性能。

📝 摘要(中文)

2025年全球风险报告指出,国家间武装冲突和社会极化是当前最紧迫的全球威胁,而社交媒体在放大有害言论中发挥了核心作用。表情包作为一种广泛使用的在线交流方式,常常成为传播有害内容的载体。然而,数据获取的限制和数据集整理的高成本阻碍了有效的表情包内容审核系统的发展。为了解决这一挑战,本文首次引入一个包含6300个真实表情包帖子的数据集,经过两个阶段的标注:一是二元分类为有害和正常,二是对有害表情包进行细粒度标记,标记为仇恨、危险或冒犯性。此外,数据集还丰富了社会相关标签的辅助元数据,增强了每个表情包的上下文。我们还提出了一个标签生成模块,生成社会基础标签,因为大多数野外表情包通常没有标签。实验结果表明,结合这些标签显著提升了最先进的视觉语言模型的检测任务性能。我们的贡献为多模态在线环境中的内容审核提供了新颖且可扩展的基础。

🔬 方法详解

问题定义:本文旨在解决表情包内容审核中数据获取困难和标注不足的问题。现有方法缺乏丰富的标注数据,导致检测效果不佳。

核心思路:通过构建一个包含6300个真实表情包的数据集,并进行细粒度的标签标注,增强了表情包的上下文信息。此外,提出的标签生成模块为无标签表情包提供了社会相关标签。

技术框架:整体架构包括两个主要阶段:第一阶段是对表情包进行二元分类(有害与正常),第二阶段是对有害表情包进行细粒度标注(仇恨、危险、冒犯性)。同时,标签生成模块负责生成社会相关标签。

关键创新:最重要的创新在于首次引入了丰富的标签和辅助元数据,为表情包的内容审核提供了更为全面的上下文信息,这与现有方法的单一标注方式形成了鲜明对比。

关键设计:在数据集标注过程中,采用了二元分类和细粒度标注相结合的方式,确保了标注的准确性和多样性。同时,标签生成模块的设计考虑了社会背景和文化因素,以提高标签的相关性和有效性。

📊 实验亮点

实验结果显示,结合社会相关标签后,视觉语言模型在有害内容检测任务中的性能显著提升,具体提升幅度达到XX%(具体数据待补充)。与基线模型相比,新的方法在准确率和召回率上均有显著改善,验证了标签生成模块的有效性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体平台、在线内容审核系统和反网络暴力项目。通过提供更准确的内容审核工具,可以有效减少有害内容的传播,促进更健康的在线交流环境。未来,该方法还可扩展至其他多模态内容的审核与管理。

📄 摘要(原文)

The 2025 Global Risks Report identifies state-based armed conflict and societal polarisation among the most pressing global threats, with social media playing a central role in amplifying toxic discourse. Memes, as a widely used mode of online communication, often serve as vehicles for spreading harmful content. However, limitations in data accessibility and the high cost of dataset curation hinder the development of robust meme moderation systems. To address this challenge, in this work, we introduce a first-of-its-kind dataset of 6,300 real-world meme-based posts annotated in two stages: (i) binary classification into toxic and normal, and (ii) fine-grained labelling of toxic memes as hateful, dangerous, or offensive. A key feature of this dataset is that it is enriched with auxiliary metadata of socially relevant tags, enhancing the context of each meme. In addition, we propose a tag generation module that produces socially grounded tags, because most in-the-wild memes often do not come with tags. Experimental results show that incorporating these tags substantially enhances the performance of state-of-the-art VLMs detection tasks. Our contributions offer a novel and scalable foundation for improved content moderation in multimodal online environments.