TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

📄 arXiv: 2603.03081v1 📥 PDF

作者: Zhi Xu, Jiaqi Li, Xiaotong Zhang, Hong Yu, Han Liu

分类: cs.CL

发布日期: 2026-03-03


💡 一句话要点

TAO-Attack:面向大语言模型的高级优化型越狱攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 对抗性提示 优化算法 安全对齐

📋 核心要点

  1. 现有基于优化的越狱攻击方法存在频繁拒绝、伪有害输出和token更新效率低下的问题。
  2. TAO-Attack通过两阶段损失函数和方向优先的token优化策略,提升攻击成功率和效率。
  3. 实验表明,TAO-Attack在多个LLM上显著优于现有方法,攻击成功率得到大幅提升。

📝 摘要(中文)

大型语言模型(LLMs)在各种应用中取得了显著成功,但仍然容易受到越狱攻击的影响。攻击者通过精心设计的提示绕过安全对齐,从而引诱模型产生不安全的响应。在现有方法中,基于优化的攻击显示出强大的有效性,但当前方法通常存在频繁拒绝、伪有害输出和低效的token级别更新等问题。本文提出了一种新的基于优化的越狱方法TAO-Attack。TAO-Attack采用两阶段损失函数:第一阶段抑制拒绝,以确保模型继续有害前缀;第二阶段惩罚伪有害输出,并鼓励模型生成更具危害性的补全。此外,我们设计了一种方向优先的token优化(DPTO)策略,该策略通过在考虑更新幅度之前将候选token与梯度方向对齐来提高效率。在多个LLM上的大量实验表明,TAO-Attack始终优于最先进的方法,实现了更高的攻击成功率,甚至在某些情况下达到了100%。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)的越狱攻击问题,即如何设计有效的对抗性提示,使得LLMs在安全对齐机制下仍然能够生成有害内容。现有基于优化的攻击方法虽然有效,但存在三个主要痛点:一是模型容易拒绝生成内容,导致攻击失败;二是生成的输出可能是“伪有害”的,即表面上看起来有害但实际上无害;三是token级别的更新效率较低,导致攻击速度慢。

核心思路:TAO-Attack的核心思路是通过一个两阶段的损失函数来引导优化过程,并结合方向优先的token优化策略来提高效率。第一阶段的损失函数旨在减少模型的拒绝行为,确保模型能够持续生成内容。第二阶段的损失函数旨在惩罚伪有害输出,并鼓励模型生成更具危害性的内容。方向优先的token优化策略则通过优先考虑梯度方向来选择更新的token,从而提高优化效率。

技术框架:TAO-Attack的整体框架包括以下几个步骤:1) 初始化一个对抗性提示;2) 使用LLM生成基于该提示的输出;3) 计算两阶段损失函数;4) 使用梯度信息和方向优先的token优化策略更新提示;5) 重复步骤2-4,直到达到攻击目标或达到最大迭代次数。

关键创新:TAO-Attack的关键创新在于以下两点:一是提出了一个两阶段的损失函数,能够更有效地引导优化过程,减少拒绝行为和伪有害输出;二是设计了一种方向优先的token优化策略,能够显著提高优化效率。与现有方法相比,TAO-Attack能够更有效地生成对抗性提示,从而提高攻击成功率。

关键设计:两阶段损失函数包括:1) 拒绝抑制损失,旨在最小化模型拒绝生成内容的概率;2) 危害性增强损失,旨在最大化生成内容的危害性。方向优先的token优化策略首先计算每个token的梯度方向,然后选择与梯度方向最一致的候选token进行更新。具体实现中,可以使用不同的危害性评估指标,例如基于规则的指标或基于模型的指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TAO-Attack在多个LLM上显著优于现有最先进的越狱攻击方法。例如,在某些场景下,TAO-Attack的攻击成功率达到了100%,而现有方法的成功率则远低于此。此外,TAO-Attack的方向优先token优化策略也显著提高了攻击效率,减少了攻击所需的时间和计算资源。

🎯 应用场景

TAO-Attack的研究成果可以应用于评估和提高大型语言模型的安全性。通过使用TAO-Attack生成对抗性提示,可以发现LLMs中存在的安全漏洞,并针对这些漏洞进行修复。此外,TAO-Attack还可以用于开发更强大的防御机制,例如对抗训练和输入过滤,从而提高LLMs的鲁棒性,降低其被恶意利用的风险。该研究对于构建安全可靠的人工智能系统具有重要意义。

📄 摘要(原文)

Large language models (LLMs) have achieved remarkable success across diverse applications but remain vulnerable to jailbreak attacks, where attackers craft prompts that bypass safety alignment and elicit unsafe responses. Among existing approaches, optimization-based attacks have shown strong effectiveness, yet current methods often suffer from frequent refusals, pseudo-harmful outputs, and inefficient token-level updates. In this work, we propose TAO-Attack, a new optimization-based jailbreak method. TAO-Attack employs a two-stage loss function: the first stage suppresses refusals to ensure the model continues harmful prefixes, while the second stage penalizes pseudo-harmful outputs and encourages the model toward more harmful completions. In addition, we design a direction-priority token optimization (DPTO) strategy that improves efficiency by aligning candidates with the gradient direction before considering update magnitude. Extensive experiments on multiple LLMs demonstrate that TAO-Attack consistently outperforms state-of-the-art methods, achieving higher attack success rates and even reaching 100\% in certain scenarios.