Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
作者: Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen
分类: cs.CR, cs.AI
发布日期: 2026-03-06
💡 一句话要点
提出SAHA框架,通过攻击深度安全注意力头破解大语言模型的安全对齐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 注意力机制 安全对齐 深度学习
📋 核心要点
- 现有大语言模型越狱攻击主要集中在浅层,无法有效利用深层模型组件的漏洞。
- SAHA框架通过消融影响排序和逐层扰动,针对性地攻击深层安全注意力头,实现越狱。
- 实验表明,SAHA相比现有方法,攻击成功率提升了14%,证明了其有效性。
📝 摘要(中文)
当前,开源大型语言模型(OSLLM)展现了卓越的生成性能。然而,由于其结构和权重公开,即使经过对齐,它们也容易受到越狱攻击。现有的攻击主要在浅层操作,例如提示或嵌入层,并且常常无法暴露根植于更深层模型组件中的漏洞,这为成功的防御创造了一种虚假的安全感。在本文中,我们提出了安全注意力头攻击(SAHA),这是一个注意力头级别的越狱框架,旨在探索更深层但对齐不足的注意力头中的漏洞。SAHA包含两个新颖的设计。首先,我们揭示了更深的注意力层引入了更多针对越狱攻击的漏洞。基于这一发现,SAHA引入了消融影响排序头选择策略,以有效地定位对于不安全输出至关重要的层。其次,我们引入了一种边界感知扰动方法,即逐层扰动,以最小化对注意力的扰动来探测不安全内容的生成。这种受约束的扰动保证了与目标意图更高的语义相关性,同时确保了规避。广泛的实验表明了我们方法的优越性:SAHA将攻击成功率(ASR)提高了14%,超过了SOTA基线,揭示了注意力头上的攻击面的漏洞。
🔬 方法详解
问题定义:论文旨在解决开源大语言模型(OSLLM)在安全对齐后仍然存在的越狱漏洞问题。现有攻击方法主要集中在prompt或embedding等浅层,无法有效利用模型深层的安全注意力头中的漏洞,导致防御效果不佳。
核心思路:论文的核心思路是发现并利用大语言模型深层注意力头中存在的安全漏洞。通过有针对性地扰动这些注意力头,可以绕过模型的安全机制,实现越狱攻击。这种方法的核心在于找到对不安全内容生成影响最大的注意力头,并以最小的扰动触发不安全行为。
技术框架:SAHA框架包含两个主要模块:1) 消融影响排序(Ablation-Impact Ranking):用于识别对不安全输出影响最大的注意力头。通过逐个消融不同的注意力头,并评估其对模型输出安全性的影响,从而确定关键的注意力头。2) 逐层扰动(Layer-Wise Perturbation):在选定的注意力头上施加扰动,以触发不安全内容的生成。该扰动方法旨在最小化对注意力的整体影响,同时最大化不安全输出的可能性。
关键创新:SAHA的关键创新在于其针对深层注意力头的攻击策略。与以往关注浅层攻击的方法不同,SAHA深入挖掘了模型内部的安全漏洞,并提出了有效的注意力头选择和扰动方法。此外,SAHA的逐层扰动策略能够在保证语义相关性的同时,有效规避安全检测机制。
关键设计:消融影响排序通过计算每个注意力头消融后模型输出安全性的变化来确定其重要性。逐层扰动则通过优化一个目标函数来实现,该目标函数旨在最大化不安全输出的概率,同时限制扰动的大小。具体而言,可以使用梯度下降等优化算法来寻找最优的扰动方向和幅度。论文中可能还涉及了对注意力矩阵进行归一化、裁剪等操作,以保证扰动的有效性和稳定性(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
SAHA框架在越狱攻击任务中取得了显著的性能提升,攻击成功率(ASR)比现有最佳基线提高了14%。这一结果表明,深层注意力头确实存在安全漏洞,并且SAHA能够有效地利用这些漏洞进行攻击。该研究揭示了现有大语言模型安全防御的薄弱环节,为未来的安全研究提供了新的方向。
🎯 应用场景
该研究成果可应用于评估和提升大语言模型的安全性。通过SAHA框架,可以发现模型中潜在的安全漏洞,并针对性地进行防御。此外,该研究还可以帮助开发更鲁棒的安全对齐方法,从而提高大语言模型在实际应用中的安全性,例如在聊天机器人、内容生成等领域。
📄 摘要(原文)
Currently, open-sourced large language models (OSLLMs) have demonstrated remarkable generative performance. However, as their structure and weights are made public, they are exposed to jailbreak attacks even after alignment. Existing attacks operate primarily at shallow levels, such as the prompt or embedding level, and often fail to expose vulnerabilities rooted in deeper model components, which creates a false sense of security for successful defense. In this paper, we propose \textbf{\underline{S}}afety \textbf{\underline{A}}ttention \textbf{\underline{H}}ead \textbf{\underline{A}}ttack (\textbf{SAHA}), an attention-head-level jailbreak framework that explores the vulnerability in deeper but insufficiently aligned attention heads. SAHA contains two novel designs. Firstly, we reveal that deeper attention layers introduce more vulnerability against jailbreak attacks. Based on this finding, \textbf{SAHA} introduces \textit{Ablation-Impact Ranking} head selection strategy to effectively locate the most vital layer for unsafe output. Secondly, we introduce a boundary-aware perturbation method, \textit{i.e. Layer-Wise Perturbation}, to probe the generation of unsafe content with minimal perturbation to the attention. This constrained perturbation guarantees higher semantic relevance with the target intent while ensuring evasion. Extensive experiments show the superiority of our method: SAHA improves ASR by 14\% over SOTA baselines, revealing the vulnerability of the attack surface on the attention head. Our code is available at https://anonymous.4open.science/r/SAHA.