Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding

📄 arXiv: 2509.10931v1 📥 PDF

作者: Seongho Joo, Hyukhun Koh, Kyomin Jung

分类: cs.AI, cs.CL

发布日期: 2025-09-13

备注: EMNLP 2025


💡 一句话要点

提出HaPLa,利用归纳框架和符号编码破解大型语言模型的安全限制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 对抗性攻击 安全漏洞 归纳推理 符号编码 提示工程 黑盒攻击

📋 核心要点

  1. 大型语言模型存在被恶意利用的风险,需要研究通用的越狱攻击方法。
  2. HaPLa通过归纳框架引导模型推断有害行为的中间步骤,并使用符号编码混淆有害内容。
  3. 实验表明HaPLa在多种模型上具有较高的攻击成功率,但也揭示了安全调整LLM的挑战。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中展现了卓越的能力,但其被滥用于有害目的的潜在风险仍然是一个重要问题。为了加强对此类漏洞的防御,有必要研究利用LLMs架构和学习范式内在弱点的通用越狱攻击。为此,我们提出了一种新颖且广泛适用的越狱技术——有害提示清洗(HaPLa),该技术仅需对目标模型进行黑盒访问。HaPLa包含两个主要策略:1)归纳框架,指示LLMs推断实现有害活动的合理中间步骤,而不是直接响应明确的有害查询;2)符号编码,一种轻量级且灵活的方法,旨在混淆有害内容,因为当前的LLMs主要对明确的有害关键词敏感。实验结果表明,HaPLa在GPT系列模型上实现了超过95%的攻击成功率,在所有目标模型上实现了70%的攻击成功率。对各种符号编码规则的进一步分析也揭示了一个根本性的挑战:在不显著降低LLMs响应良性查询的帮助性的前提下,安全地调整LLMs仍然很困难。

🔬 方法详解

问题定义:当前大型语言模型容易受到对抗性攻击,攻击者可以通过精心设计的提示绕过安全机制,使其生成有害内容。现有方法主要依赖于关键词过滤,但容易被绕过。因此,如何设计一种通用的、能够有效绕过LLM安全限制的攻击方法是一个关键问题。

核心思路:HaPLa的核心思路是利用LLM的推理能力,通过归纳的方式引导模型逐步推导出有害行为的中间步骤,而不是直接要求模型生成有害内容。同时,使用符号编码对有害关键词进行混淆,降低模型对有害内容的敏感度。这种方法旨在利用LLM的内在弱点,实现有效的越狱攻击。

技术框架:HaPLa攻击框架主要包含两个阶段:归纳框架阶段和符号编码阶段。在归纳框架阶段,攻击者构造一个提示,引导LLM推断完成特定有害任务所需的中间步骤。在符号编码阶段,攻击者使用符号编码规则对提示中的有害关键词进行替换,以混淆LLM的安全检测机制。整个过程只需要黑盒访问目标模型,不需要了解模型的内部结构和参数。

关键创新:HaPLa的关键创新在于将归纳推理和符号编码相结合,形成一种有效的越狱攻击方法。与以往的攻击方法相比,HaPLa不需要直接操纵模型的梯度或内部状态,而是通过巧妙地构造提示,利用模型的推理能力绕过安全限制。这种方法具有更强的通用性和可移植性。

关键设计:归纳框架的设计需要仔细考虑如何引导模型逐步推导出有害行为的中间步骤,避免直接触发安全机制。符号编码规则的设计需要保证混淆后的提示仍然能够被模型理解,同时能够有效降低模型对有害关键词的敏感度。论文中使用了多种符号编码规则,例如字符替换、同义词替换等。攻击成功率的评估指标是模型是否生成了符合攻击者意图的有害内容。

📊 实验亮点

HaPLa在GPT系列模型上实现了超过95%的攻击成功率,在所有目标模型上实现了70%的攻击成功率。实验结果表明,HaPLa能够有效绕过多种LLM的安全机制,证明了当前LLM在安全性方面仍然存在较大的漏洞。此外,研究还发现,在不显著降低LLM响应良性查询的帮助性的前提下,安全地调整LLM仍然是一个挑战。

🎯 应用场景

该研究成果可用于评估和改进大型语言模型的安全性,帮助开发者发现和修复潜在的安全漏洞。同时,该研究也提醒人们需要关注LLM被滥用的风险,并采取相应的防御措施,例如更强大的安全过滤机制和更完善的伦理审查流程。未来的研究可以探索更有效的防御方法,以及如何平衡LLM的有用性和安全性。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse tasks, but their potential misuse for harmful purposes remains a significant concern. To strengthen defenses against such vulnerabilities, it is essential to investigate universal jailbreak attacks that exploit intrinsic weaknesses in the architecture and learning paradigms of LLMs. In response, we propose \textbf{H}armful \textbf{P}rompt \textbf{La}undering (HaPLa), a novel and broadly applicable jailbreaking technique that requires only black-box access to target models. HaPLa incorporates two primary strategies: 1) \textit{abductive framing}, which instructs LLMs to infer plausible intermediate steps toward harmful activities, rather than directly responding to explicit harmful queries; and 2) \textit{symbolic encoding}, a lightweight and flexible approach designed to obfuscate harmful content, given that current LLMs remain sensitive primarily to explicit harmful keywords. Experimental results show that HaPLa achieves over 95% attack success rate on GPT-series models and 70% across all targets. Further analysis with diverse symbolic encoding rules also reveals a fundamental challenge: it remains difficult to safely tune LLMs without significantly diminishing their helpfulness in responding to benign queries.