Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions
作者: Neha Nagaraja, Lan Zhang, Zhilong Wang, Bo Zhang, Pawan Patil
分类: cs.CV, cs.AI, cs.CR
发布日期: 2026-03-04
备注: 7 pages, published in 2025 3rd International Conference on Foundation and Large Language Models (FLLM), Vienna, Austria
期刊: 2025 3rd International Conference on Foundation and Large Language Models (FLLM), Vienna, Austria, 2025, pp. 916-922
DOI: 10.1109/FLLM67465.2025.11391218
💡 一句话要点
提出图像提示注入攻击,利用视觉嵌入对抗指令劫持多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 提示注入攻击 对抗性攻击 图像处理 黑盒攻击
📋 核心要点
- 多模态大语言模型易受提示注入攻击,现有方法难以在视觉模态中隐蔽地嵌入对抗性指令。
- 提出基于图像的提示注入(IPI)攻击,通过分割、字体缩放和背景感知渲染,将对抗指令嵌入图像。
- 实验表明,IPI攻击能有效操纵模型输出,在隐蔽约束下,攻击成功率最高可达64%。
📝 摘要(中文)
多模态大语言模型(MLLM)集成了视觉和文本,为各种应用提供支持,但这种集成也引入了新的漏洞。本文研究了基于图像的提示注入(IPI)攻击,这是一种黑盒攻击,它将对抗性指令嵌入到自然图像中,以覆盖模型的行为。我们的端到端IPI流程结合了基于分割的区域选择、自适应字体缩放和背景感知渲染,以对人类感知隐藏提示,同时保持模型的可解释性。我们使用COCO数据集和GPT-4-turbo评估了12种对抗性提示策略和多种嵌入配置。结果表明,IPI可以可靠地操纵模型的输出,在隐蔽约束下,最有效的配置实现了高达64%的攻击成功率。这些发现强调了IPI作为黑盒设置中一种实际威胁,并强调了防御多模态提示注入的必要性。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在面对恶意图像输入时,容易受到提示注入攻击的问题。现有的提示注入攻击主要集中在文本模态,而针对视觉模态的攻击方法研究较少,尤其是在保证对抗性指令隐蔽性的前提下。现有的方法难以在视觉模态中隐蔽地嵌入对抗性指令,容易被人类察觉,从而降低攻击的有效性。
核心思路:论文的核心思路是将对抗性指令巧妙地嵌入到自然图像中,使得人类难以察觉,但MLLM能够识别并执行这些指令,从而控制模型的输出。通过精细的图像处理技术,将对抗性文本信息融入到图像的纹理、颜色或结构中,实现对模型的黑盒攻击。
技术框架:IPI攻击流程主要包含以下几个阶段:1) 区域选择:利用图像分割技术,选择图像中适合嵌入对抗性指令的区域。2) 字体缩放:根据所选区域的大小和形状,自适应地调整字体大小,以确保文本能够完整地嵌入到区域中。3) 背景感知渲染:根据所选区域的背景颜色和纹理,调整文本的颜色和透明度,使其与背景融合,从而降低人类的感知度。4) 提示注入:将处理后的文本嵌入到图像中,并输入到MLLM中进行攻击。
关键创新:论文的关键创新在于提出了一种端到端的图像提示注入攻击框架,该框架能够自动地将对抗性指令嵌入到自然图像中,并且能够保证对抗性指令的隐蔽性。此外,论文还提出了一种基于分割的区域选择方法,以及自适应字体缩放和背景感知渲染技术,进一步提高了攻击的成功率和隐蔽性。
关键设计:论文使用了COCO数据集进行实验,并选择了GPT-4-turbo作为目标MLLM。论文评估了12种不同的对抗性提示策略,以及多种嵌入配置。在区域选择方面,使用了基于分割的算法,例如Mask R-CNN。在字体缩放方面,使用了线性缩放方法,根据区域的大小动态调整字体大小。在背景感知渲染方面,使用了颜色混合技术,将文本的颜色与背景颜色进行混合,以降低文本的突出程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IPI攻击能够有效地操纵GPT-4-turbo的输出。在隐蔽约束下,最有效的配置实现了高达64%的攻击成功率。实验还对比了不同的对抗性提示策略和嵌入配置,结果表明,选择合适的策略和配置能够显著提高攻击的成功率。这些结果验证了IPI攻击的有效性和实用性。
🎯 应用场景
该研究成果可应用于评估和提升多模态大语言模型在安全领域的鲁棒性。通过模拟真实场景下的图像提示注入攻击,可以发现模型存在的安全漏洞,并针对性地开发防御机制。此外,该技术还可用于数字水印、信息隐藏等领域,具有潜在的应用价值。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) integrate vision and text to power applications, but this integration introduces new vulnerabilities. We study Image-based Prompt Injection (IPI), a black-box attack in which adversarial instructions are embedded into natural images to override model behavior. Our end-to-end IPI pipeline incorporates segmentation-based region selection, adaptive font scaling, and background-aware rendering to conceal prompts from human perception while preserving model interpretability. Using the COCO dataset and GPT-4-turbo, we evaluate 12 adversarial prompt strategies and multiple embedding configurations. The results show that IPI can reliably manipulate the output of the model, with the most effective configuration achieving up to 64\% attack success under stealth constraints. These findings highlight IPI as a practical threat in black-box settings and underscore the need for defenses against multimodal prompt injection.