GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

作者: Houde Dong, Yifei She, Kai Ye, Liangcai Su, Chenxiong Qian, Jie Hao

分类: cs.AI

发布日期: 2026-03-02

💡 一句话要点

提出GMP基准，用于评估AI在多重违规和动态规则下的内容审核能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内容审核 多重违规 动态规则 基准测试 自然语言处理

📋 核心要点

现有内容审核AI系统难以应对多重违规和动态规则带来的挑战，导致审核结果不一致。
论文提出GMP基准，旨在评估AI模型在多重违规和动态规则下的内容审核能力，更贴近真实场景。
GMP基准的建立将有助于推动AI模型在复杂内容审核场景下的鲁棒性和泛化能力提升。

📝 摘要（中文）

在线内容审核对于维护健康的数字环境至关重要，人工智能在其中的应用日益广泛。然而，现实场景中存在两个关键挑战：一是多重违规，即单个帖子违反多项政策（如偏见和人身攻击）；二是动态审核规则，即违规判定取决于平台特定且不断演变的指南。多重危害和动态规则的交织凸显了当前AI系统的核心局限：尽管大型语言模型（LLM）擅长遵循固定指南，但当政策不稳定或依赖上下文时，其判断能力会下降。实际上，这种缺陷导致不一致的审核：要么错误地限制了合法的表达，要么允许有害内容继续存在。因此，一个关键的评估问题是：在现有静态基准上的高性能是否真正保证了AI判断对涉及多重违规和动态规则的真实场景的鲁棒泛化？

🔬 方法详解

问题定义：论文旨在解决现有内容审核基准无法有效评估AI模型在真实场景下的内容审核能力的问题。现有方法主要依赖于静态规则和单一违规类型的评估，忽略了实际应用中普遍存在的多重违规（Co-occurring Violations）和动态规则（Dynamic Rules）的挑战。这导致模型在静态基准上表现良好，但在实际应用中却容易出现误判或漏判，无法保证内容审核的质量和一致性。

核心思路：论文的核心思路是构建一个更贴近真实场景的内容审核基准，即GMP（A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules）。GMP基准包含多重违规和动态规则的标注数据，能够更全面地评估AI模型在复杂场景下的内容审核能力。通过在GMP基准上进行评估，可以发现现有模型的不足，并推动更鲁棒、更泛化的内容审核算法的研究。

技术框架：GMP基准的构建主要包括以下几个阶段：数据收集、规则定义、标注和评估。首先，收集来自不同平台和场景的文本数据。然后，定义一系列动态变化的审核规则，这些规则可能受到上下文、时间或其他因素的影响。接下来，对数据进行标注，标注人员需要判断文本是否违反了定义的规则，并标注出违反的具体类型。最后，使用标注好的数据对AI模型进行评估，评估指标包括准确率、召回率和F1值等。

关键创新：GMP基准的关键创新在于其对多重违规和动态规则的建模。与传统的静态基准不同，GMP基准考虑了实际应用中普遍存在的复杂情况，能够更真实地反映AI模型在内容审核任务中的表现。此外，GMP基准还提供了一套评估指标，可以更全面地评估模型的性能，包括对不同类型违规的识别能力和对动态规则的适应能力。

关键设计：GMP基准的关键设计包括：1) 多样化的数据来源，确保基准的代表性；2) 细粒度的规则定义，涵盖各种常见的违规类型；3) 动态变化的规则设置，模拟真实场景中的规则演变；4) 多维度的评估指标，全面评估模型的性能。具体的技术细节包括数据清洗方法、标注指南、规则更新策略和评估指标的计算方式等。

🖼️ 关键图片

📊 实验亮点

论文提出了GMP基准，该基准包含多重违规和动态规则的标注数据，能够更全面地评估AI模型在复杂场景下的内容审核能力。实验结果表明，现有模型在GMP基准上的性能显著低于在静态基准上的性能，表明现有模型在处理多重违规和动态规则方面存在不足。GMP基准的提出为未来研究提供了新的评估标准和方向。

🎯 应用场景

该研究成果可应用于各种在线平台的内容审核系统，例如社交媒体、论坛、电商平台等。通过使用GMP基准评估和优化AI模型，可以提高内容审核的准确性和效率，减少有害信息的传播，维护健康的在线环境。未来，该研究还可以扩展到其他领域，例如金融风险评估、医疗诊断等，提升AI模型在复杂场景下的决策能力。

📄 摘要（原文）

Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理