DynaGuard: A Dynamic Guardian Model With User-Defined Policies

📄 arXiv: 2509.02563v3 📥 PDF

作者: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein

分类: cs.LG, cs.CL

发布日期: 2025-09-02 (更新: 2025-10-06)

备注: 22 Pages


💡 一句话要点

提出DynaGuard动态守护模型,通过用户自定义策略提升AI应用安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态守护模型 用户自定义策略 安全护栏 链式推理 AI安全 DynaBench数据集 策略违规检测

📋 核心要点

  1. 现有守护模型依赖静态危害类别,无法灵活应对用户自定义的安全策略需求。
  2. DynaGuard通过用户自定义策略动态评估文本,提供快速策略违规检测和链式推理能力。
  3. 实验表明,DynaGuard在检测精度和推理速度上均优于传统模型,适用于语言模型安全护栏。

📝 摘要(中文)

为了确保面向用户的AI应用的安全性与伦理行为,守护模型发挥着关键作用,它们通过执行安全护栏和检测有害内容来实现这一目标。然而,标准的守护模型仅限于预定义的静态危害类别。本文介绍了DynaGuard,一套动态守护模型,它通过基于用户自定义策略评估文本,提供了前所未有的灵活性。同时,我们还提出了DynaBench,一个用于训练和评估动态守护模型的数据集。我们的模型不仅能够快速检测策略违规行为,还提供了一种链式推理选项,能够清晰地表达和证明模型输出的合理性。重要的是,DynaGuard在传统安全类别上的检测精度超越了静态模型,并且在自由形式的策略违规检测方面,与前沿的推理模型相比也具有竞争力,同时耗时更少。这使得DynaGuard成为语言模型安全护栏的关键工具。

🔬 方法详解

问题定义:现有守护模型主要依赖于预定义的、静态的危害类别,无法灵活适应用户自定义的安全策略。例如,针对特定应用场景或用户群体,可能需要定义不同的安全规则和限制。传统方法难以应对这种动态变化的需求,并且缺乏对决策过程的解释能力。

核心思路:DynaGuard的核心思路是引入用户自定义策略,使守护模型能够根据用户设定的规则动态地评估文本内容。通过这种方式,模型不再局限于预先设定的类别,而是能够根据具体的策略进行判断,从而提高灵活性和适应性。同时,DynaGuard还引入了链式推理(Chain-of-Thought)机制,使模型能够解释其决策过程,提高透明度和可信度。

技术框架:DynaGuard的技术框架主要包括以下几个模块:1) 策略解析模块:负责解析用户定义的策略,将其转化为模型可以理解的形式。2) 文本评估模块:根据解析后的策略,对输入的文本进行评估,判断是否存在违规行为。3) 链式推理模块:生成解释模型决策过程的推理链,提供决策依据。4) 输出模块:输出评估结果和推理链。整体流程是:用户定义策略 -> 策略解析 -> 文本评估 -> 链式推理 -> 输出结果。

关键创新:DynaGuard最重要的技术创新点在于其动态策略评估能力和链式推理机制。与传统的静态模型相比,DynaGuard能够根据用户自定义的策略进行评估,从而提高了灵活性和适应性。链式推理机制则增强了模型的可解释性,使用户能够理解模型的决策过程。

关键设计:DynaGuard的关键设计包括:1) 策略表示方法:如何有效地表示用户自定义的策略,使其能够被模型理解和执行。2) 推理链生成方法:如何生成清晰、准确的推理链,解释模型的决策过程。3) 模型训练方法:如何训练模型,使其能够准确地评估文本并生成合理的推理链。具体的技术细节(如损失函数、网络结构等)在论文中可能有所描述,但摘要中未提及。

📊 实验亮点

DynaGuard在传统安全类别上的检测精度超越了静态模型,并且在自由形式的策略违规检测方面,与前沿的推理模型相比也具有竞争力,同时耗时更少。这意味着DynaGuard在保证检测精度的同时,还具有更高的效率,使其更适合实际应用。

🎯 应用场景

DynaGuard可广泛应用于各种需要安全保障的AI应用场景,例如聊天机器人、内容审核系统、在线教育平台等。通过用户自定义策略,可以灵活地适应不同场景的安全需求,有效防止有害信息的传播,提升用户体验,并降低潜在的法律风险。未来,DynaGuard有望成为构建安全可信AI应用的关键基础设施。

📄 摘要(原文)

Guardian models play a crucial role in ensuring the safety and ethical behavior of user-facing AI applications by enforcing guardrails and detecting harmful content. While standard guardian models are limited to predefined, static harm categories, we introduce DynaGuard, a suite of dynamic guardian models offering novel flexibility by evaluating text based on user-defined policies, and DynaBench, a dataset for training and evaluating dynamic guardian models. Our models provide both rapid detection of policy violations and a chain-of-thought reasoning option that articulate and justify model outputs. Critically, DynaGuard not only surpasses static models in detection accuracy on traditional safety categories, but is competitive with frontier reasoning models on free-form policy violations, all in a fraction of the time. This makes DynaGuard an critical tool for language model guardrails.