Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities

📄 arXiv: 2506.00548v1 📥 PDF

作者: Jiahui Geng, Thy Thy Tran, Preslav Nakov, Iryna Gurevych

分类: cs.CR, cs.CL, cs.LG

发布日期: 2025-05-31


💡 一句话要点

提出Con Instruction方法以实现多模态大语言模型的普遍越狱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态语言模型 对抗性攻击 安全机制 非文本指令 嵌入空间优化 攻击响应分类 模型鲁棒性

📋 核心要点

  1. 现有方法主要依赖文本和对抗性图像进行攻击,存在一定的局限性,难以充分利用多模态模型的潜力。
  2. 本文提出的Con Instruction方法能够生成非文本对抗样本,优化其与目标指令的对齐,显著提升攻击效果。
  3. 实验结果显示,Con Instruction在多个模型上实现了最高的攻击成功率,特别是在LLaVA-v1.5上达到了81.3%。

📝 摘要(中文)

现有针对多模态语言模型(MLLMs)的攻击主要通过文本和对抗性图像传达指令。本文提出了一种新方法Con Instruction,利用MLLMs对非文本指令的理解能力,生成对抗性图像或音频,并优化这些对抗样本以与目标指令在嵌入空间中紧密对齐。与以往研究不同,该方法无需训练数据或文本指令的预处理。实验结果表明,Con Instruction能够有效绕过多种视觉和音频语言模型的安全机制,并在多个标准基准上取得了显著的攻击成功率。

🔬 方法详解

问题定义:本文旨在解决现有多模态语言模型攻击方法的局限性,特别是对文本依赖的不足,导致攻击效果不佳。

核心思路:提出Con Instruction方法,通过生成对抗性图像或音频,利用MLLMs对非文本指令的理解能力,优化这些样本以更好地与目标指令对齐。

技术框架:该方法包括生成对抗样本、优化对齐过程和评估模型响应三个主要模块。首先生成非文本输入,然后通过嵌入空间优化与目标指令的对齐,最后使用新的攻击响应分类框架评估效果。

关键创新:Con Instruction的核心创新在于无需训练数据或文本预处理,直接利用非文本输入进行攻击,突破了以往方法的限制。

关键设计:在对抗样本生成过程中,采用特定的损失函数来优化样本与目标指令的相似度,同时设计了新的评估框架来量化模型响应的质量和相关性。

📊 实验亮点

实验结果表明,Con Instruction在多个视觉和音频语言模型上有效绕过安全机制,尤其在LLaVA-v1.5模型上实现了81.3%的攻击成功率,较以往方法有显著提升。此外,结合文本输入后,攻击成功率进一步提高,显示出该方法的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括安全性测试、模型鲁棒性评估以及对抗性训练等。通过揭示多模态模型的脆弱性,研究者和开发者可以更好地设计防御机制,提升模型的安全性和可靠性。未来,该方法可能在AI安全领域产生深远影响,推动对抗性攻击与防御技术的发展。

📄 摘要(原文)

Existing attacks against multimodal language models (MLLMs) primarily communicate instructions through text accompanied by adversarial images. In contrast, we exploit the capabilities of MLLMs to interpret non-textual instructions, specifically, adversarial images or audio generated by our novel method, Con Instruction. We optimize these adversarial examples to align closely with target instructions in the embedding space, revealing the detrimental implications of MLLMs' sophisticated understanding. Unlike prior work, our method does not require training data or preprocessing of textual instructions. While these non-textual adversarial examples can effectively bypass MLLM safety mechanisms, their combination with various text inputs substantially amplifies attack success. We further introduce a new Attack Response Categorization (ARC) framework, which evaluates both the quality of the model's response and its relevance to the malicious instructions. Experimental results demonstrate that Con Instruction effectively bypasses safety mechanisms in multiple vision- and audio-language models, including LLaVA-v1.5, InternVL, Qwen-VL, and Qwen-Audio, evaluated on two standard benchmarks: AdvBench and SafeBench. Specifically, our method achieves the highest attack success rates, reaching 81.3% and 86.6% on LLaVA-v1.5 (13B). On the defense side, we explore various countermeasures against our attacks and uncover a substantial performance gap among existing techniques. Our implementation is made publicly available.