Semantic Representation Attack against Aligned Large Language Models

作者: Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Shaohui Mei, Lap-Pui Chau

分类: cs.CL, cs.AI

发布日期: 2025-09-18 (更新: 2025-10-20)

💡 一句话要点

提出语义表示攻击，提升大语言模型对抗攻击的成功率和自然性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 对抗攻击 语义表示 安全性 提示工程

📋 核心要点

现有对抗攻击方法依赖精确文本匹配，导致提示不自然、收敛性差和计算成本高昂。
提出语义表示攻击，通过在语义空间中寻找等价的有害响应，平衡攻击效果和提示自然性。
实验证明，该方法在多个LLM上实现了极高的攻击成功率，同时保持了隐蔽性和效率。

📝 摘要（中文）

大型语言模型（LLM）越来越多地采用对齐技术来防止有害输出。尽管有这些安全措施，攻击者仍然可以通过精心设计的提示来诱导LLM生成有害内容，从而绕过它们。目前的方法通常针对精确的肯定性响应，例如“当然，这是...”，存在收敛性有限、提示不自然和计算成本高等问题。我们引入了语义表示攻击，这是一种新颖的范例，从根本上重新概念化了针对对齐LLM的对抗目标。我们的方法不是针对精确的文本模式，而是利用包含具有等效有害含义的各种响应的语义表示空间。这项创新解决了困扰现有方法的攻击效力和提示自然性之间的内在权衡。我们提出了语义表示启发式搜索算法，通过在增量扩展期间保持可解释性，来有效地生成语义连贯且简洁的对抗性提示。我们为语义收敛建立了严格的理论保证，并证明我们的方法实现了前所未有的攻击成功率（在18个LLM上平均为89.41％，包括在11个模型上达到100％），同时保持了隐蔽性和效率。全面的实验结果证实了我们的语义表示攻击的总体优越性。代码将公开提供。

🔬 方法详解

问题定义：现有针对对齐大语言模型的对抗攻击方法，主要目标是诱导模型产生特定的有害文本输出，例如以“当然，这是...”开头的回复。这些方法通常需要精确匹配目标文本模式，导致生成的对抗性提示不够自然，难以收敛，并且计算成本高昂。核心痛点在于攻击目标过于狭窄，忽略了语义等价的多种有害响应。

核心思路：论文的核心思路是将对抗攻击的目标从精确的文本匹配，扩展到语义表示空间。即，攻击的目标不再是特定的文本序列，而是具有相同有害含义的多种响应。通过在语义空间中搜索，可以找到更自然、更有效的对抗性提示，从而绕过LLM的对齐防御机制。这种方法的核心在于利用语义的泛化能力，突破了传统对抗攻击的局限性。

技术框架：论文提出的语义表示攻击框架主要包含以下几个阶段：1) 语义表示提取：将LLM的输出转换为语义表示，例如使用预训练的句子嵌入模型。2) 对抗目标定义：定义语义空间中的对抗目标，即具有有害含义的语义表示区域。3) 启发式搜索：使用启发式搜索算法，在语义空间中寻找能够诱导LLM生成对抗目标的提示。4) 提示生成：将搜索到的语义表示转换为自然语言提示。

关键创新：该方法最重要的技术创新点在于将对抗攻击的目标从文本空间扩展到语义表示空间。与现有方法相比，这种方法具有以下优势：1) 更高的攻击成功率：由于攻击目标更加广泛，更容易找到有效的对抗性提示。2) 更自然的提示：生成的提示更加自然，不易被LLM的防御机制检测到。3) 更高的效率：启发式搜索算法能够有效地在语义空间中搜索，降低了计算成本。

关键设计：论文提出了语义表示启发式搜索算法，该算法通过增量扩展的方式生成对抗性提示。算法的关键设计包括：1) 语义相似度度量：使用余弦相似度等指标来衡量语义表示之间的相似度。2) 启发式搜索策略：使用贪心搜索或A搜索等策略，在语义空间中寻找最优的对抗性提示。3) 可解释性约束*：在搜索过程中，保持提示的可解释性，避免生成过于复杂的提示。

📊 实验亮点

实验结果表明，语义表示攻击在18个LLM上平均实现了89.41%的攻击成功率，其中在11个模型上达到了100%。与现有方法相比，该方法在攻击成功率、提示自然性和效率方面均有显著提升。例如，在某些模型上，该方法的攻击成功率比现有方法提高了20%以上。这些结果充分证明了语义表示攻击的优越性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性。通过语义表示攻击，可以更有效地发现LLM的潜在漏洞，并为开发更鲁棒的防御机制提供指导。此外，该方法还可以用于评估LLM在处理敏感信息时的风险，并为制定更合理的安全策略提供依据。该研究对于构建安全可信赖的人工智能系统具有重要意义。

📄 摘要（原文）

Large Language Models (LLMs) increasingly employ alignment techniques to prevent harmful outputs. Despite these safeguards, attackers can circumvent them by crafting prompts that induce LLMs to generate harmful content. Current methods typically target exact affirmative responses, such as ``Sure, here is...'', suffering from limited convergence, unnatural prompts, and high computational costs. We introduce Semantic Representation Attack, a novel paradigm that fundamentally reconceptualizes adversarial objectives against aligned LLMs. Rather than targeting exact textual patterns, our approach exploits the semantic representation space comprising diverse responses with equivalent harmful meanings. This innovation resolves the inherent trade-off between attack efficacy and prompt naturalness that plagues existing methods. The Semantic Representation Heuristic Search algorithm is proposed to efficiently generate semantically coherent and concise adversarial prompts by maintaining interpretability during incremental expansion. We establish rigorous theoretical guarantees for semantic convergence and demonstrate that our method achieves unprecedented attack success rates (89.41\% averaged across 18 LLMs, including 100\% on 11 models) while maintaining stealthiness and efficiency. Comprehensive experimental results confirm the overall superiority of our Semantic Representation Attack. The code will be publicly available.

Semantic Representation Attack against Aligned Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册