Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models

作者: Madison Van Doren, Casey Ford

分类: cs.CL

发布日期: 2025-09-18 (更新: 2025-11-21)

期刊: AAAI 2026 AIGOV Workshop and EurIPS 2025 Workshop on Unifying Perspectives on Learning Biases

💡 一句话要点

红队评估多模态语言模型：跨模态提示的有害性评估与模型对比

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性评估 红队测试 对抗性提示 有害性分析

📋 核心要点

现有的多模态大语言模型安全性评估不足，尤其是在对抗性攻击场景下，模型可能产生有害内容。
通过红队生成对抗性提示，包括文本和多模态形式，评估模型在非法活动、虚假信息和不道德行为方面的安全性。
实验结果表明，不同模型和模态的安全性存在显著差异，文本提示有时比多模态提示更容易绕过安全机制。

📝 摘要（中文）

本研究评估了四个领先的多模态大型语言模型（MLLM）：GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus在对抗性提示下的安全性。由26名红队成员生成了726个提示，目标是三个有害类别：非法活动、虚假信息和不道德行为。这些提示被提交给每个模型，并由17名标注员使用5分制评估了2904个模型输出的有害性。结果表明，不同模型和模态之间的脆弱性存在显著差异。Pixtral 12B表现出最高的有害响应率（约62%），而Claude Sonnet 3.5最具抵抗力（约10%）。与预期相反，纯文本提示在绕过安全机制方面略优于多模态提示。统计分析证实，模型类型和输入模态都是有害性的重要预测因素。这些发现强调了随着MLLM的广泛部署，迫切需要稳健的多模态安全基准。

🔬 方法详解

问题定义：该论文旨在评估多模态大型语言模型（MLLMs）在面对对抗性提示时，是否会产生有害的输出，例如涉及非法活动、传播虚假信息或不道德行为。现有方法缺乏对MLLMs在多模态输入下的安全性进行全面评估，并且没有充分考虑对抗性攻击场景，导致模型可能被恶意利用。

核心思路：核心思路是通过红队（Red Teaming）的方式，模拟攻击者，设计各种对抗性提示，包括纯文本和多模态形式，来测试MLLMs的安全性。通过分析模型在这些提示下的输出，评估其在不同有害类别中的脆弱性，并找出潜在的安全漏洞。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 红队提示生成：由26名红队成员设计726个对抗性提示，涵盖非法活动、虚假信息和不道德行为三个类别。提示包括纯文本和多模态形式（例如，包含图像的文本提示）。2) 模型推理：将生成的提示输入到四个MLLMs（GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus）中，获取模型的输出。3) 有害性评估：由17名标注员使用5分制评估2904个模型输出的有害性。4) 统计分析：对评估结果进行统计分析，确定模型类型和输入模态对有害性的影响。

关键创新：该研究的关键创新在于：1) 采用红队方法，系统性地评估MLLMs在对抗性提示下的安全性。2) 关注多模态输入，弥补了现有研究对多模态安全性的不足。3) 对比了多个主流MLLMs的安全性，揭示了不同模型之间的差异。

关键设计：在提示设计方面，红队成员被要求尽可能地绕过模型的安全机制，生成具有挑战性的对抗性提示。在有害性评估方面，使用5分制量化有害程度，并由多名标注员进行评估，以提高评估的可靠性。统计分析采用了方差分析等方法，以确定模型类型和输入模态对有害性的显著影响。

📊 实验亮点

实验结果表明，不同MLLM的安全性存在显著差异，Pixtral 12B的有害响应率高达62%，而Claude Sonnet 3.5仅为10%。令人意外的是，纯文本提示在绕过安全机制方面略优于多模态提示。统计分析证实，模型类型和输入模态都是有害性的重要预测因素，这些发现为后续模型安全性的提升提供了重要依据。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的安全性，指导模型开发者设计更有效的安全机制，减少模型被恶意利用的风险。同时，可以为多模态安全基准的建立提供参考，促进人工智能技术的安全可靠发展。该研究对于构建负责任的人工智能系统具有重要意义。

📄 摘要（原文）

Multimodal large language models (MLLMs) are increasingly used in real world applications, yet their safety under adversarial conditions remains underexplored. This study evaluates the harmlessness of four leading MLLMs (GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus) when exposed to adversarial prompts across text-only and multimodal formats. A team of 26 red teamers generated 726 prompts targeting three harm categories: illegal activity, disinformation, and unethical behaviour. These prompts were submitted to each model, and 17 annotators rated 2,904 model outputs for harmfulness using a 5-point scale. Results show significant differences in vulnerability across models and modalities. Pixtral 12B exhibited the highest rate of harmful responses (~62%), while Claude Sonnet 3.5 was the most resistant (~10%). Contrary to expectations, text-only prompts were slightly more effective at bypassing safety mechanisms than multimodal ones. Statistical analysis confirmed that both model type and input modality were significant predictors of harmfulness. These findings underscore the urgent need for robust, multimodal safety benchmarks as MLLMs are deployed more widely.

Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册