ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification

作者: Xiao Lin, Philip Li, Zhichen Zeng, Tingwei Li, Tianxin Wei, Xuying Ning, Gaotang Li, Yuzhong Chen, Hanghang Tong

分类: cs.LG, cs.AI, cs.IR

发布日期: 2026-01-07

💡 一句话要点

ALERT：通过内部差异放大实现零样本LLM越狱检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱检测 零样本学习 安全对齐 内部差异放大

📋 核心要点

现有越狱检测方法依赖于训练数据中的模板，无法有效应对不断涌现的零样本攻击。
ALERT通过分层、分模块、分token地放大良性和恶意提示的内部特征差异，从而实现零样本检测。
实验表明，ALERT在多个安全基准上显著优于现有方法，平均准确率和F1分数提升至少10%。

📝 摘要（中文）

尽管大型语言模型（LLMs）采用了丰富的安全对齐策略，但它们仍然极易受到越狱攻击的影响，这些攻击会破坏安全防护措施并带来严重的安全风险。现有的检测方法主要依赖于训练数据中存在的越狱模板来检测越狱状态。然而，很少有研究关注更现实和更具挑战性的零样本越狱检测设置，即训练期间没有可用的越狱模板。这种情况更好地反映了新攻击不断出现和发展的现实场景。为了应对这一挑战，我们提出了一个分层、分模块和分token的放大框架，该框架逐步放大良性和越狱提示之间的内部特征差异。我们发现了与安全相关的层，识别了固有地编码零样本判别信号的特定模块，并定位了信息丰富的安全token。基于这些见解，我们引入了ALERT（基于放大的越狱检测器），这是一种高效且有效的零样本越狱检测器，它在放大的表示上引入了两个独立但互补的分类器。在三个安全基准上的大量实验表明，ALERT实现了始终如一的强大零样本检测性能。具体来说，（i）在所有数据集和攻击策略中，ALERT可靠地排在前两种方法之列，并且（ii）它在平均准确率和F1分数方面至少优于第二好的基线10%，有时甚至高达40%。

🔬 方法详解

问题定义：论文旨在解决零样本场景下大型语言模型（LLM）的越狱检测问题。现有的越狱检测方法依赖于预先存在的越狱模板，无法有效识别新型或未知的攻击方式，因此在实际应用中存在局限性。

核心思路：论文的核心思路是通过放大良性提示和越狱提示在LLM内部表示上的差异来实现零样本检测。作者认为，即使在零样本场景下，良性和恶意提示在LLM内部的某些层、模块和token上仍然存在细微的差异，通过特定的放大机制可以有效提取和利用这些差异。

技术框架：ALERT框架包含三个主要阶段：1) 差异放大：通过分层（layer-wise）、分模块（module-wise）和分token（token-wise）的方式，逐步放大良性和越狱提示在LLM内部表示上的差异。2) 特征提取：从放大后的表示中提取特征，用于后续的分类。3) 分类：使用两个独立的分类器对提取的特征进行分类，判断输入提示是否为越狱攻击。

关键创新：ALERT的关键创新在于其差异放大机制，它能够有效地提取和利用零样本场景下良性和恶意提示之间的细微差异。与现有方法相比，ALERT不需要预先存在的越狱模板，因此能够更好地应对新型或未知的攻击方式。此外，ALERT的分层、分模块和分token的放大策略能够更精细地捕捉LLM内部的判别性信号。

关键设计：ALERT的关键设计包括：1) 安全相关层的选择：通过实验确定对越狱检测最敏感的LLM层。2) 判别性模块的识别：识别LLM中固有地编码零样本判别信号的特定模块。3) 信息性安全token的定位：定位对越狱检测具有重要意义的token。4) 两个互补分类器的设计：使用两个独立的分类器，分别从不同的角度对放大后的表示进行分类，以提高检测的鲁棒性和准确性。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。

📊 实验亮点

ALERT在三个安全基准上进行了广泛的实验，结果表明其在零样本越狱检测方面表现出色。在所有数据集和攻击策略中，ALERT始终排在前两种方法之列，并且在平均准确率和F1分数方面至少优于第二好的基线10%，有时甚至高达40%。这些结果表明ALERT是一种高效且有效的零样本越狱检测器。

🎯 应用场景

该研究成果可应用于增强大型语言模型的安全性，防止恶意用户利用越狱攻击绕过安全防护措施。通过部署ALERT，可以有效检测和阻止潜在的攻击，从而保护LLM免受滥用，并确保其在各种应用场景中的安全可靠运行。此外，该方法还可以用于评估和改进LLM的安全对齐策略。

📄 摘要（原文）

Despite rich safety alignment strategies, large language models (LLMs) remain highly susceptible to jailbreak attacks, which compromise safety guardrails and pose serious security risks. Existing detection methods mainly detect jailbreak status relying on jailbreak templates present in the training data. However, few studies address the more realistic and challenging zero-shot jailbreak detection setting, where no jailbreak templates are available during training. This setting better reflects real-world scenarios where new attacks continually emerge and evolve. To address this challenge, we propose a layer-wise, module-wise, and token-wise amplification framework that progressively magnifies internal feature discrepancies between benign and jailbreak prompts. We uncover safety-relevant layers, identify specific modules that inherently encode zero-shot discriminative signals, and localize informative safety tokens. Building upon these insights, we introduce ALERT (Amplification-based Jailbreak Detector), an efficient and effective zero-shot jailbreak detector that introduces two independent yet complementary classifiers on amplified representations. Extensive experiments on three safety benchmarks demonstrate that ALERT achieves consistently strong zero-shot detection performance. Specifically, (i) across all datasets and attack strategies, ALERT reliably ranks among the top two methods, and (ii) it outperforms the second-best baseline by at least 10% in average Accuracy and F1-score, and sometimes by up to 40%.

ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册