Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models

📄 arXiv: 2603.04837v1 📥 PDF

作者: G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan

分类: cs.AI

发布日期: 2026-03-05

备注: 14 pages, 3 figures


💡 一句话要点

提出DBC框架,通过行为约束层提升大语言模型在推理时的安全性和合规性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 行为治理 风险评估 安全合规 对抗攻击

📋 核心要点

  1. 现有大语言模型在推理时缺乏有效的行为治理机制,容易产生有害或不合规的内容。
  2. 提出DBC框架,通过在系统提示层面构建行为约束层,实现模型无关、可审计的行为治理。
  3. 实验表明,DBC框架能显著降低风险暴露率,提高模型对MDBC的依从性,并提升欧盟AI法案的合规性。

📝 摘要(中文)

本文提出了一种名为动态行为约束(DBC)的基准测试框架,用于评估结构化的、包含150个控制项的行为治理层(MDBC系统)在应用于大型语言模型(LLM)推理时的有效性。与训练时对齐方法(如RLHF、DPO)或事后内容审核API不同,DBC构成了一个系统提示级别的治理层,具有模型无关性、司法管辖区可映射性和可审计性。我们使用包含五种对抗攻击策略(直接攻击、角色扮演、少样本攻击、假设攻击、权威欺骗)的红队协议,在3个模型家族的30个领域风险分类(分为六个集群)上评估了DBC框架。三臂对照设计(Base、Base+审核、Base+DBC)实现了风险降低的因果归因。结果表明,DBC层将总体风险暴露率(RER)从7.19%(Base)降低到4.55%(Base+DBC),相对风险降低了36.8%,而标准安全审核提示的降低幅度为0.6%。MDBC依从性评分从8.6/10(Base)提高到8.7/10(Base+DBC)。在DBC层下,欧盟AI法案合规性(自动评分)达到8.5/10。三位评审员的评估结果显示,Fleiss kappa大于0.70(高度一致),验证了我们的自动化流程。聚类消融分析表明,完整性保护聚类(MDBC 081-099)实现了最高的单领域风险降低,而灰盒对抗攻击的DBC绕过率为4.83%。我们发布了基准测试代码、提示数据库和所有评估工件,以实现可重复性和模型演进的纵向跟踪。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在推理过程中可能产生的有害、不准确或不合规行为。现有方法,如训练时对齐(RLHF、DPO)和事后内容审核API,存在模型依赖性强、无法灵活调整、审计困难等问题。因此,需要一种模型无关、可定制、可审计的治理方案。

核心思路:论文的核心思路是在LLM推理过程中引入一个行为约束层(DBC),该层通过系统提示的方式,对LLM的行为进行引导和约束。DBC的设计基于一个全面的风险分类体系,并可以根据不同的司法管辖区和应用场景进行定制。这种方法的核心优势在于其模型无关性,即可以应用于不同的LLM,而无需重新训练或微调。

技术框架:DBC框架包含以下几个主要组成部分:1)风险分类体系:一个包含30个领域风险的分类体系,分为六个集群(幻觉与校准、偏见与公平、恶意使用、隐私与数据保护、鲁棒性与可靠性、错位代理)。2)MDBC系统:一个包含150个控制项的行为治理层,用于约束LLM的行为。3)对抗攻击策略:五种对抗攻击策略(直接攻击、角色扮演、少样本攻击、假设攻击、权威欺骗),用于评估DBC的有效性。4)评估流程:一个自动化的评估流程,用于计算风险暴露率(RER)、MDBC依从性评分和欧盟AI法案合规性。

关键创新:DBC框架的关键创新在于其系统提示级别的行为治理方法。与传统的训练时对齐或事后审核方法不同,DBC可以在推理时动态地调整LLM的行为,而无需修改模型本身。此外,DBC框架还提供了一个全面的风险分类体系和一套可定制的行为约束规则,使得行为治理更加精细化和可控。

关键设计:DBC框架的关键设计包括:1)风险分类体系的构建,需要充分考虑各种潜在的风险因素。2)MDBC系统的设计,需要确保控制项的全面性和有效性。3)对抗攻击策略的选择,需要覆盖各种可能的攻击场景。4)评估指标的设计,需要能够准确地反映DBC的有效性。此外,论文还采用了三臂对照设计(Base、Base+审核、Base+DBC),以实现风险降低的因果归因。

📊 实验亮点

实验结果表明,DBC层将总体风险暴露率(RER)从7.19%(Base)降低到4.55%(Base+DBC),相对风险降低了36.8%,而标准安全审核提示的降低幅度仅为0.6%。MDBC依从性评分从8.6/10(Base)提高到8.7/10(Base+DBC)。在DBC层下,欧盟AI法案合规性(自动评分)达到8.5/10。

🎯 应用场景

DBC框架可应用于各种需要对LLM行为进行治理的场景,例如金融、医疗、法律等领域。它可以帮助企业和组织确保LLM的使用符合法律法规和伦理规范,降低潜在的风险。此外,DBC框架还可以用于评估和比较不同LLM的安全性和合规性。

📄 摘要(原文)

We introduce the Dynamic Behavioral Constraint (DBC) benchmark, the first empirical framework for evaluating the efficacy of a structured, 150-control behavioral governance layer, the MDBC (Madan DBC) system, applied at inference time to large language models (LLMs). Unlike training time alignment methods (RLHF, DPO) or post-hoc content moderation APIs, DBCs constitute a system prompt level governance layer that is model-agnostic, jurisdiction-mappable, and auditable. We evaluate the DBC Framework across a 30 domain risk taxonomy organized into six clusters (Hallucination and Calibration, Bias and Fairness, Malicious Use, Privacy and Data Protection, Robustness and Reliability, and Misalignment Agency) using an agentic red-team protocol with five adversarial attack strategies (Direct, Roleplay, Few-Shot, Hypothetical, Authority Spoof) across 3 model families. Our three-arm controlled design (Base, Base plus Moderation, Base plus DBC) enables causal attribution of risk reduction. Key findings: the DBC layer reduces the aggregate Risk Exposure Rate (RER) from 7.19 percent (Base) to 4.55 percent (Base plus DBC), representing a 36.8 percent relative risk reduction, compared with 0.6 percent for a standard safety moderation prompt. MDBC Adherence Scores improve from 8.6 by 10 (Base) to 8.7 by 10 (Base plus DBC). EU AI Act compliance (automated scoring) reaches 8.5by 10 under the DBC layer. A three judge evaluation ensemble yields Fleiss kappa greater than 0.70 (substantial agreement), validating our automated pipeline. Cluster ablation identifies the Integrity Protection cluster (MDBC 081 099) as delivering the highest per domain risk reduction, while graybox adversarial attacks achieve a DBC Bypass Rate of 4.83 percent . We release the benchmark code, prompt database, and all evaluation artefacts to enable reproducibility and longitudinal tracking as models evolve.