AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

作者: Yufan Liu, Wanqian Zhang, Huashan Chen, Lin Wang, Xiaojun Jia, Zheng Lin, Weiping Wang

分类: cs.CV

发布日期: 2025-10-28

备注: Accepted by ICCV 2025

💡 一句话要点

提出AutoPrompt，利用LLM自动生成对抗性提示，实现对文本到图像模型的黑盒红队测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像模型 对抗性攻击 红队测试 大型语言模型 黑盒攻击

📋 核心要点

文本到图像模型易受对抗性提示攻击，现有红队测试方法依赖白盒访问和低效的逐提示优化，且易生成无意义提示。
AutoPrompt利用LLM生成人类可读的对抗性后缀，通过交替优化和微调，提升对抗性提示的生成质量和效率。
实验表明，AutoPrompt生成的提示具有优秀的红队测试性能和零样本迁移能力，能有效攻击商业API。

📝 摘要（中文）

本文提出AutoPrompt (APT)，一个黑盒框架，利用大型语言模型(LLM)为良性提示自动生成人类可读的对抗性后缀，从而实现对文本到图像(T2I)模型的红队测试。该框架首先引入对抗性后缀优化和LLM微调之间的交替优化-微调流程，并利用优化后的后缀对LLM进行微调。此外，在优化阶段集成了双重规避策略，以绕过基于困惑度的过滤器和黑名单词过滤器：(1) 通过辅助LLM困惑度评分约束LLM生成人类可读的提示，这与之前的token级别乱码形成鲜明对比；(2) 引入禁用token惩罚，以抑制黑名单中禁用token的显式生成。大量实验表明，我们的人类可读、抗过滤的对抗性提示具有出色的红队测试性能，以及卓越的零样本迁移能力，能够即时适应未见过的提示，并暴露商业API（例如Leonardo.Ai）中的关键漏洞。

🔬 方法详解

问题定义：文本到图像(T2I)模型虽然发展迅速，但其安全机制容易受到对抗性提示的攻击，这些提示会恶意生成不安全的图像。现有的红队测试方法通常需要白盒访问T2I模型，并且依赖于低效的逐提示优化，而且不可避免地会生成语义上无意义的提示，这些提示很容易被过滤器阻止。因此，需要一种黑盒方法，能够自动生成人类可读且能绕过过滤器的对抗性提示，以有效评估T2I模型的安全性。

核心思路：AutoPrompt的核心思路是利用大型语言模型(LLM)生成对抗性后缀，并将其添加到良性提示中，从而欺骗T2I模型生成不安全的图像。通过优化LLM生成的后缀，使其既能有效攻击T2I模型，又能保持人类可读性并绕过各种过滤器。这种方法的核心在于利用LLM的生成能力和优化算法的搜索能力，自动发现有效的对抗性提示。

技术框架：AutoPrompt框架包含以下主要模块：1) 对抗性后缀优化：使用优化算法（如梯度下降）搜索能够最大化攻击成功率的对抗性后缀。2) LLM微调：利用优化后的对抗性后缀对LLM进行微调，提高LLM生成对抗性提示的能力。3) 双重规避策略：包括基于困惑度的过滤器规避和黑名单词过滤器规避。4) 交替优化-微调流程：在对抗性后缀优化和LLM微调之间进行交替，不断提高对抗性提示的质量和LLM的生成能力。

关键创新：AutoPrompt的关键创新在于：1) 黑盒攻击：无需访问T2I模型的内部参数，即可进行红队测试。2) 人类可读的对抗性提示：生成的提示具有良好的可读性，更难被过滤器识别和阻止。3) 双重规避策略：能够有效绕过基于困惑度的过滤器和黑名单词过滤器。4) 交替优化-微调流程：能够不断提高对抗性提示的质量和LLM的生成能力。与现有方法的本质区别在于，AutoPrompt利用LLM的生成能力和优化算法的搜索能力，自动发现有效的对抗性提示，而无需人工设计或修改提示。

关键设计：AutoPrompt的关键设计包括：1) 困惑度约束：通过计算LLM生成提示的困惑度，约束其生成人类可读的提示。2) 禁用token惩罚：对LLM生成黑名单中的token进行惩罚，防止其生成包含敏感词汇的提示。3) 交替优化-微调的超参数设置：例如，优化算法的学习率、微调的epoch数等。4) 对抗性损失函数的设计：用于衡量攻击的成功率，例如，可以根据生成的图像是否包含不安全内容来设计损失函数。

📊 实验亮点

实验结果表明，AutoPrompt生成的对抗性提示具有出色的红队测试性能，能够有效攻击各种文本到图像模型，包括商业API（例如Leonardo.Ai）。AutoPrompt还具有卓越的零样本迁移能力，能够即时适应未见过的提示，并暴露模型中的关键漏洞。与现有方法相比，AutoPrompt生成的提示更具可读性，且更难被过滤器阻止。

🎯 应用场景

AutoPrompt可用于评估和提高文本到图像模型的安全性，帮助开发者发现和修复潜在的安全漏洞。该技术可应用于各种场景，例如，评估商业API的安全性、开发更安全的文本到图像模型、以及防止恶意用户利用对抗性提示生成不安全内容。未来的研究可以探索更有效的对抗性提示生成方法，以及更鲁棒的防御机制。

📄 摘要（原文）

Despite rapid advancements in text-to-image (T2I) models, their safety mechanisms are vulnerable to adversarial prompts, which maliciously generate unsafe images. Current red-teaming methods for proactively assessing such vulnerabilities usually require white-box access to T2I models, and rely on inefficient per-prompt optimization, as well as inevitably generate semantically meaningless prompts easily blocked by filters. In this paper, we propose APT (AutoPrompT), a black-box framework that leverages large language models (LLMs) to automatically generate human-readable adversarial suffixes for benign prompts. We first introduce an alternating optimization-finetuning pipeline between adversarial suffix optimization and fine-tuning the LLM utilizing the optimized suffix. Furthermore, we integrates a dual-evasion strategy in optimization phase, enabling the bypass of both perplexity-based filter and blacklist word filter: (1) we constrain the LLM generating human-readable prompts through an auxiliary LLM perplexity scoring, which starkly contrasts with prior token-level gibberish, and (2) we also introduce banned-token penalties to suppress the explicit generation of banned-tokens in blacklist. Extensive experiments demonstrate the excellent red-teaming performance of our human-readable, filter-resistant adversarial prompts, as well as superior zero-shot transferability which enables instant adaptation to unseen prompts and exposes critical vulnerabilities even in commercial APIs (e.g., Leonardo.Ai.).

AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册