Automated Framework to Evaluate and Harden LLM System Instructions against Encoding Attacks
作者: Anubhab Sahu, Diptisha Samanta, Reza Soosahabi
分类: cs.CR, cs.AI
发布日期: 2026-04-01
💡 一句话要点
提出自动化框架评估并强化LLM系统指令,防御编码攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM安全 系统指令 编码攻击 自动化评估 思维链推理
📋 核心要点
- 现有LLM应用依赖拒绝指令防御系统指令泄露,但忽略了编码攻击等隐蔽手段。
- 提出自动化评估框架,通过编码和结构化输出任务测试系统指令的保密性。
- 实验表明,结构化序列化攻击成功率高,通过思维链重塑指令可有效缓解攻击。
📝 摘要(中文)
大型语言模型(LLM)中的系统指令通常用于强制执行安全策略、定义代理行为以及保护代理AI应用中的敏感操作上下文。这些指令可能包含API凭证、内部策略和特权工作流定义等敏感信息,使得系统指令泄露成为一个关键的安全风险,并在OWASP LLM应用十大风险中被强调。许多LLM应用依赖于基于拒绝的指令来阻止对系统指令的直接请求,隐式地假设禁止的信息只能通过显式查询提取,而无需推理模型的开销。我们介绍了一个自动化评估框架,用于测试当提取请求被重新构建为编码或结构化输出任务时,系统指令是否仍然保密。在四个常见模型和46个经过验证的系统指令中,我们观察到结构化序列化的高攻击成功率(> 0.7),其中模型拒绝直接提取请求,但以请求的序列化格式公开受保护的内容。我们进一步展示了一种基于单样本指令重塑的缓解策略,该策略使用思维链推理模型,表明即使系统指令措辞和结构的细微变化也可以显著降低攻击成功率,而无需模型重新训练。
🔬 方法详解
问题定义:该论文旨在解决LLM系统中系统指令泄露的问题。现有方法主要依赖于拒绝直接提取系统指令的请求,但忽略了攻击者可以通过编码或结构化输出等方式绕过这些防御机制。现有的防御方法无法有效应对这些隐蔽的攻击手段,导致系统指令中的敏感信息,如API密钥、内部策略等,容易被泄露。
核心思路:该论文的核心思路是构建一个自动化评估框架,用于测试LLM系统指令在面对编码攻击时的脆弱性。通过将提取请求重新构建为编码或结构化输出任务,可以模拟攻击者绕过直接请求限制的手段,从而评估系统指令的保密性。此外,论文还提出了一种基于思维链(Chain-of-Thought)推理的指令重塑方法,通过细微地修改系统指令的措辞和结构,来降低攻击成功率。
技术框架:该框架主要包含以下几个阶段:1) 系统指令收集:收集一系列经过验证的系统指令,这些指令用于控制LLM的行为和安全策略。2) 攻击策略生成:设计多种编码攻击策略,例如结构化序列化,将提取系统指令的请求转化为编码或结构化输出任务。3) 攻击执行与评估:将生成的攻击策略应用于目标LLM,并评估攻击的成功率,即系统指令是否被成功提取。4) 防御策略设计与评估:提出基于思维链的指令重塑方法,修改系统指令的措辞和结构,并评估其对攻击成功率的影响。
关键创新:该论文的关键创新在于:1) 提出了一个自动化评估框架,可以系统地评估LLM系统指令在面对编码攻击时的脆弱性。2) 揭示了结构化序列化攻击对LLM系统指令的威胁,表明现有基于拒绝的防御机制存在局限性。3) 提出了一种基于思维链的指令重塑方法,通过细微的修改系统指令,可以有效降低攻击成功率,而无需重新训练模型。
关键设计:在攻击策略生成方面,论文重点关注结构化序列化攻击,例如JSON或XML格式的输出。在防御策略设计方面,论文使用思维链推理模型来生成新的系统指令,目标是在不改变指令功能的前提下,使其更难以被攻击者利用。具体的指令重塑策略包括改变指令的措辞、调整指令的结构、增加冗余信息等。实验中,使用了四个常见的LLM模型进行评估,并对46个系统指令进行了测试。
📊 实验亮点
实验结果表明,结构化序列化攻击对LLM系统指令具有较高的成功率(>0.7)。通过基于思维链的指令重塑,即使是细微的修改也能显著降低攻击成功率,而无需重新训练模型。例如,通过改变指令的措辞和结构,可以将攻击成功率降低到0.3以下,证明了该防御策略的有效性。
🎯 应用场景
该研究成果可应用于各种使用LLM作为代理的AI应用中,例如智能客服、自动化流程管理等。通过自动化评估和强化系统指令,可以有效降低敏感信息泄露的风险,提升AI系统的安全性。未来,该研究可以扩展到更复杂的攻击场景,并探索更有效的防御策略,为LLM的安全应用提供保障。
📄 摘要(原文)
System Instructions in Large Language Models (LLMs) are commonly used to enforce safety policies, define agent behavior, and protect sensitive operational context in agentic AI applications. These instructions may contain sensitive information such as API credentials, internal policies, and privileged workflow definitions, making system instruction leakage a critical security risk highlighted in the OWASP Top 10 for LLM Applications. Without incurring the overhead costs of reasoning models, many LLM applications rely on refusal-based instructions that block direct requests for system instructions, implicitly assuming that prohibited information can only be extracted through explicit queries. We introduce an automated evaluation framework that tests whether system instructions remain confidential when extraction requests are re-framed as encoding or structured output tasks. Across four common models and 46 verified system instructions, we observe high attack success rates (> 0.7) for structured serialization where models refuse direct extraction requests but disclose protected content in the requested serialization formats. We further demonstrate a mitigation strategy based on one-shot instruction reshaping using a Chain-of-Thought reasoning model, indicating that even subtle changes in wording and structure of system instructions can significantly reduce attack success rate without requiring model retraining.