GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

📄 arXiv: 2603.01724v1 📥 PDF

作者: Houde Dong, Yifei She, Kai Ye, Liangcai Su, Chenxiong Qian, Jie Hao

分类: cs.AI

发布日期: 2026-03-02


💡 一句话要点

提出GMP基准,用于评估AI在多重违规和动态规则下的内容审核能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 内容审核 多重违规 动态规则 基准测试 自然语言处理

📋 核心要点

  1. 现有内容审核AI系统难以应对多重违规和动态规则带来的挑战,导致审核结果不一致。
  2. 论文提出GMP基准,旨在评估AI模型在多重违规和动态规则下的内容审核能力,更贴近真实场景。
  3. GMP基准的建立将有助于推动AI模型在复杂内容审核场景下的鲁棒性和泛化能力提升。

📝 摘要(中文)

在线内容审核对于维护健康的数字环境至关重要,人工智能在其中的应用日益广泛。然而,现实场景中存在两个关键挑战:一是多重违规,即单个帖子违反多项政策(如偏见和人身攻击);二是动态审核规则,即违规判定取决于平台特定且不断演变的指南。多重危害和动态规则的交织凸显了当前AI系统的核心局限:尽管大型语言模型(LLM)擅长遵循固定指南,但当政策不稳定或依赖上下文时,其判断能力会下降。实际上,这种缺陷导致不一致的审核:要么错误地限制了合法的表达,要么允许有害内容继续存在。因此,一个关键的评估问题是:在现有静态基准上的高性能是否真正保证了AI判断对涉及多重违规和动态规则的真实场景的鲁棒泛化?

🔬 方法详解

问题定义:论文旨在解决现有内容审核基准无法有效评估AI模型在真实场景下的内容审核能力的问题。现有方法主要依赖于静态规则和单一违规类型的评估,忽略了实际应用中普遍存在的多重违规(Co-occurring Violations)和动态规则(Dynamic Rules)的挑战。这导致模型在静态基准上表现良好,但在实际应用中却容易出现误判或漏判,无法保证内容审核的质量和一致性。

核心思路:论文的核心思路是构建一个更贴近真实场景的内容审核基准,即GMP(A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules)。GMP基准包含多重违规和动态规则的标注数据,能够更全面地评估AI模型在复杂场景下的内容审核能力。通过在GMP基准上进行评估,可以发现现有模型的不足,并推动更鲁棒、更泛化的内容审核算法的研究。

技术框架:GMP基准的构建主要包括以下几个阶段:数据收集、规则定义、标注和评估。首先,收集来自不同平台和场景的文本数据。然后,定义一系列动态变化的审核规则,这些规则可能受到上下文、时间或其他因素的影响。接下来,对数据进行标注,标注人员需要判断文本是否违反了定义的规则,并标注出违反的具体类型。最后,使用标注好的数据对AI模型进行评估,评估指标包括准确率、召回率和F1值等。

关键创新:GMP基准的关键创新在于其对多重违规和动态规则的建模。与传统的静态基准不同,GMP基准考虑了实际应用中普遍存在的复杂情况,能够更真实地反映AI模型在内容审核任务中的表现。此外,GMP基准还提供了一套评估指标,可以更全面地评估模型的性能,包括对不同类型违规的识别能力和对动态规则的适应能力。

关键设计:GMP基准的关键设计包括:1) 多样化的数据来源,确保基准的代表性;2) 细粒度的规则定义,涵盖各种常见的违规类型;3) 动态变化的规则设置,模拟真实场景中的规则演变;4) 多维度的评估指标,全面评估模型的性能。具体的技术细节包括数据清洗方法、标注指南、规则更新策略和评估指标的计算方式等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了GMP基准,该基准包含多重违规和动态规则的标注数据,能够更全面地评估AI模型在复杂场景下的内容审核能力。实验结果表明,现有模型在GMP基准上的性能显著低于在静态基准上的性能,表明现有模型在处理多重违规和动态规则方面存在不足。GMP基准的提出为未来研究提供了新的评估标准和方向。

🎯 应用场景

该研究成果可应用于各种在线平台的内容审核系统,例如社交媒体、论坛、电商平台等。通过使用GMP基准评估和优化AI模型,可以提高内容审核的准确性和效率,减少有害信息的传播,维护健康的在线环境。未来,该研究还可以扩展到其他领域,例如金融风险评估、医疗诊断等,提升AI模型在复杂场景下的决策能力。

📄 摘要(原文)

Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?