All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction
作者: Ziyou Jiang, Mingyang Li, Junjie Wang, Yuekai Huang, Jie Huang, Zhiyuan Chang, Zhaoyang Li, Qing Wang
分类: cs.CV
发布日期: 2026-01-08
备注: 18 pages, 11 figures
💡 一句话要点
提出RepMD,通过设计概念重现提升不断演变的有害Meme检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 有害Meme检测 设计概念重现 多模态学习 大型语言模型 内容审核
📋 核心要点
- 现有有害Meme检测方法难以应对其类型快速变化和时间演进的特性,缺乏对恶意用户设计意图的深入理解。
- RepMD通过重现历史Meme的设计步骤,构建设计概念图(DCG),从而捕捉有害Meme背后的不变设计原则。
- 实验结果表明,RepMD在检测不断演变的有害Meme方面取得了最高的准确率,并能显著提升人工审核效率。
📝 摘要(中文)
有害Meme在互联网社区中不断演变,由于其类型转换和时间演化特性,难以分析。尽管这些Meme在变化,但我们发现不同的Meme可能共享不变的原则,即恶意用户的潜在设计概念,这有助于我们分析这些Meme为何有害。在本文中,我们提出RepMD,一种基于设计概念重现的、用于检测不断演变的有害Meme的方法。我们首先参考攻击树来定义设计概念图(DCG),该图描述了人们设计有害Meme可能采取的步骤。然后,我们通过设计步骤重现和图剪枝从历史Meme中推导出DCG。最后,我们使用DCG来指导多模态大型语言模型(MLLM)检测有害Meme。评估结果表明,RepMD实现了81.1%的最高准确率,并且在推广到类型转换和时间演化的Meme时,准确率略有下降。人工评估表明,RepMD可以提高人工发现有害Meme的效率,每个Meme节省15到30秒。
🔬 方法详解
问题定义:当前有害Meme检测方法难以适应Meme内容和形式的快速变化,缺乏对Meme设计者恶意意图的理解,导致检测效果不佳。现有方法通常依赖于表面特征,难以泛化到新型或演化的Meme上。
核心思路:论文的核心思路是,虽然Meme的内容和形式不断变化,但恶意用户设计有害Meme的底层逻辑和步骤(即设计概念)是相对稳定的。通过学习和重现这些设计概念,可以更好地理解Meme的恶意意图,从而提高检测的泛化能力。
技术框架:RepMD方法包含以下几个主要步骤:1) 设计概念图(DCG)定义:参考攻击树,定义DCG,描述设计有害Meme的步骤。2) DCG推导:从历史有害Meme中重现设计步骤,构建初始DCG,并进行图剪枝,去除不相关的节点和边。3) MLLM引导:使用DCG引导多模态大型语言模型(MLLM),使其关注Meme中与设计概念相关的特征,从而更准确地检测有害Meme。
关键创新:RepMD的关键创新在于引入了“设计概念”这一抽象层次,将Meme检测问题转化为对恶意用户设计意图的理解。通过DCG的形式化表示,将设计概念显式地融入到检测模型中,从而提高了模型的鲁棒性和泛化能力。与传统方法相比,RepMD不再仅仅依赖于Meme的表面特征,而是深入挖掘其背后的恶意逻辑。
关键设计:DCG的构建和剪枝是关键设计。设计概念图的节点代表设计步骤,边代表步骤之间的依赖关系。图剪枝通过统计历史Meme中设计步骤的出现频率,去除低频步骤,从而简化DCG,提高检测效率。MLLM引导部分,具体如何将DCG的信息融入到MLLM中,例如通过注意力机制或知识图谱嵌入等方式,论文中可能包含更详细的技术细节(未知)。
📊 实验亮点
RepMD在实验中取得了81.1%的最高准确率,表明其在有害Meme检测方面具有显著优势。更重要的是,RepMD在面对类型转换和时间演化的Meme时,准确率下降幅度较小,证明了其良好的泛化能力。人工评估显示,RepMD能够帮助审核人员平均每个Meme节省15到30秒的审核时间,显著提升了审核效率。
🎯 应用场景
RepMD可应用于各类社交媒体平台、在线论坛和内容审核系统,用于自动检测和过滤有害Meme,减少恶意信息的传播,维护网络社区的健康环境。该研究对于提升内容审核效率、降低人工审核成本具有重要意义,并为未来开发更智能、更鲁棒的内容审核系统提供了新的思路。
📄 摘要(原文)
Harmful memes are ever-shifting in the Internet communities, which are difficult to analyze due to their type-shifting and temporal-evolving nature. Although these memes are shifting, we find that different memes may share invariant principles, i.e., the underlying design concept of malicious users, which can help us analyze why these memes are harmful. In this paper, we propose RepMD, an ever-shifting harmful meme detection method based on the design concept reproduction. We first refer to the attack tree to define the Design Concept Graph (DCG), which describes steps that people may take to design a harmful meme. Then, we derive the DCG from historical memes with design step reproduction and graph pruning. Finally, we use DCG to guide the Multimodal Large Language Model (MLLM) to detect harmful memes. The evaluation results show that RepMD achieves the highest accuracy with 81.1% and has slight accuracy decreases when generalized to type-shifting and temporal-evolving memes. Human evaluation shows that RepMD can improve the efficiency of human discovery on harmful memes, with 15$\sim$30 seconds per meme.