Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

作者: Hoagy Cunningham, Jerry Wei, Zihan Wang, Andrew Persic, Alwin Peng, Jordan Abderrachid, Raj Agarwal, Bobby Chen, Austin Cohen, Andy Dau, Alek Dimitriev, Rob Gilson, Logan Howard, Yijin Hua, Jared Kaplan, Jan Leike, Mu Lin, Christopher Liu, Vladimir Mikulik, Rohit Mittapalli, Clare O'Hara, Jin Pan, Nikhil Saxena, Alex Silverstein, Yue Song, Xunjie Yu, Giulio Zhou, Ethan Perez, Mrinank Sharma

分类: cs.CR, cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出Constitutional Classifiers++，高效防御通用越狱攻击，降低计算成本和拒绝率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 越狱攻击防御 分类器级联 线性探针 计算效率优化

📋 核心要点

现有防御系统在应对通用越狱攻击时，计算成本高昂，且容易出现过高的拒绝率，影响用户体验。
Constitutional Classifiers++通过交换分类器、两阶段级联和线性探针集成，在保证安全性的同时，显著降低计算成本。
实验表明，该系统在生产环境中实现了40倍的计算成本降低，拒绝率仅为0.05%，并有效防御了1700小时的红队攻击。

📝 摘要（中文）

本文提出增强的Constitutional Classifiers，在生产环境中提供强大的越狱攻击防御能力，并显著降低了计算成本和拒绝率，优于上一代防御系统。该系统结合了多个关键技术：首先，开发了交换分类器，在完整的对话上下文中评估模型响应，解决了上一代系统孤立地检查输出的漏洞。其次，实现了两阶段分类器级联，轻量级分类器筛选所有流量，仅将可疑交换升级到更昂贵的分类器。第三，训练高效的线性探针分类器，并将其与外部分类器集成，以同时提高鲁棒性和降低计算成本。这些技术共同构成了一个生产级系统，与基线交换分类器相比，计算成本降低了40倍，同时在生产流量中保持了0.05%的拒绝率。通过超过1700小时的大量红队测试，证明了对通用越狱攻击的强大保护——没有针对该系统的攻击成功地引出与未防御模型在细节上相当的所有八个目标查询的响应。这项工作确立了Constitutional Classifiers作为大型语言模型实用且高效的保障。

🔬 方法详解

问题定义：当前大型语言模型（LLM）容易受到通用越狱攻击，攻击者可以通过精心设计的提示绕过安全限制，使其产生有害或不当的输出。现有的防御方法，如基于规则的过滤器或简单的分类器，要么容易被绕过，要么计算成本过高，难以在生产环境中部署。上一代Constitutional Classifiers虽然有效，但计算开销仍然很大，并且容易受到孤立输出评估的攻击。

核心思路：Constitutional Classifiers++的核心思路是通过多层防御体系，利用轻量级和重量级分类器的组合，在保证安全性的前提下，显著降低计算成本。通过在对话上下文中评估模型响应，并采用级联结构，可以更准确地识别和阻止恶意请求，同时减少不必要的拒绝。线性探针分类器的引入进一步提高了效率和鲁棒性。

技术框架：Constitutional Classifiers++包含以下主要模块： 1. 交换分类器（Exchange Classifier）：在完整的对话上下文中评估模型响应，考虑了用户输入和模型输出之间的关系。 2. 两阶段分类器级联（Two-Stage Classifier Cascade）：第一阶段使用轻量级分类器快速筛选大部分流量，仅将可疑的交换传递给第二阶段的更昂贵的分类器。 3. 线性探针分类器（Linear Probe Classifier）：训练高效的线性分类器，用于快速识别恶意请求，并与外部分类器集成，提高整体性能。

关键创新：该方法最重要的创新点在于其多层防御体系和对计算效率的关注。与以往的防御方法相比，Constitutional Classifiers++通过交换分类器考虑了对话上下文，通过级联结构降低了计算成本，并通过线性探针分类器提高了效率和鲁棒性。这种组合使得该系统能够在生产环境中提供强大的越狱攻击防御能力，同时保持较低的拒绝率。

关键设计： 1. 交换分类器：使用Transformer模型，输入为完整的对话历史，输出为模型响应是否安全的概率。 2. 两阶段级联：第一阶段使用快速的线性分类器，第二阶段使用更复杂的Transformer模型。阈值的设置需要权衡安全性和拒绝率。 3. 线性探针分类器：在预训练的语言模型上训练线性分类器，用于快速识别恶意请求。损失函数通常使用交叉熵损失。

📊 实验亮点

实验结果表明，Constitutional Classifiers++在生产环境中实现了40倍的计算成本降低，同时保持了0.05%的拒绝率。通过超过1700小时的红队测试，证明了该系统对通用越狱攻击的强大防御能力，没有攻击成功地引出与未防御模型在细节上相当的所有八个目标查询的响应。这些结果表明，Constitutional Classifiers++是一种实用且高效的LLM安全保障方案。

🎯 应用场景

Constitutional Classifiers++可广泛应用于各种需要安全保障的大型语言模型应用场景，如聊天机器人、智能助手、内容生成平台等。该技术能够有效防止恶意用户利用越狱攻击绕过安全限制，生成有害或不当内容，从而保护用户安全，维护平台声誉，并促进LLM技术的健康发展。

📄 摘要（原文）

We introduce enhanced Constitutional Classifiers that deliver production-grade jailbreak robustness with dramatically reduced computational costs and refusal rates compared to previous-generation defenses. Our system combines several key insights. First, we develop exchange classifiers that evaluate model responses in their full conversational context, which addresses vulnerabilities in last-generation systems that examine outputs in isolation. Second, we implement a two-stage classifier cascade where lightweight classifiers screen all traffic and escalate only suspicious exchanges to more expensive classifiers. Third, we train efficient linear probe classifiers and ensemble them with external classifiers to simultaneously improve robustness and reduce computational costs. Together, these techniques yield a production-grade system achieving a 40x computational cost reduction compared to our baseline exchange classifier, while maintaining a 0.05% refusal rate on production traffic. Through extensive red-teaming comprising over 1,700 hours, we demonstrate strong protection against universal jailbreaks -- no attack on this system successfully elicited responses to all eight target queries comparable in detail to an undefended model. Our work establishes Constitutional Classifiers as practical and efficient safeguards for large language models.

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册