AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs

📄 arXiv: 2601.04736v1 📥 PDF

作者: Han Zhu, Jiale Chen, Chengkun Cai, Shengjie Sun, Haoran Li, Yujin Zhou, Chi-Min Chan, Pengcheng Wen, Lei Li, Sirui Han, Yike Guo

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

AM$^3$Safety:面向多模态大语言模型,提升多轮交互场景下的安全性与数据效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性对齐 多轮对话 强化学习 人类反馈 数据效率 视觉问答

📋 核心要点

  1. 现有MLLM在多轮多模态交互中存在安全漏洞,有害意图易被重建,安全协议易失效。
  2. AM$^3$Safety框架结合冷启动拒绝和GRPO微调,利用turn-aware双目标奖励优化对话安全性。
  3. 实验表明,AM$^3$Safety能显著降低攻击成功率,提升模型在无害和有益维度上的表现。

📝 摘要(中文)

多模态大语言模型(MLLMs)越来越多地部署在交互式应用中。然而,它们在多轮多模态场景中的安全漏洞变得突出,因为有害意图可以在多轮对话中逐渐重建,而安全协议会随着对话的进行而逐渐失效。现有的基于人类反馈的强化学习(RLHF)对齐方法主要针对单轮视觉问答(VQA)任务开发,并且通常需要昂贵的人工偏好标注,限制了它们在对话中的有效性和可扩展性。为了应对这一挑战,我们提出了InterSafe-V,一个包含11270个对话和500个专门设计的拒绝VQA样本的开源多模态对话数据集。该数据集通过多个模型之间的交互构建,旨在更准确地反映真实世界的场景,并包括为特定领域量身定制的VQA对。在此数据集的基础上,我们提出了AM$^3$Safety,该框架结合了冷启动拒绝阶段和使用整个对话中的turn-aware双目标奖励的Group Relative Policy Optimization (GRPO)微调。在Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B上的实验表明,在多模态多轮安全基准测试中,攻击成功率(ASR)降低了10%以上,同时MLLM的无害维度增加了至少8%,有益维度增加了13%以上,同时保留了它们的一般能力。

🔬 方法详解

问题定义:现有MLLM在多轮对话中容易受到攻击,因为模型可能会逐渐忘记安全协议,并且攻击者可以通过多轮交互逐步构建有害意图。现有的RLHF方法主要针对单轮VQA任务,需要大量人工标注,难以扩展到多轮对话场景。

核心思路:AM$^3$Safety的核心思路是结合冷启动拒绝和GRPO微调,利用turn-aware双目标奖励来优化整个对话过程中的安全性。冷启动拒绝阶段旨在让模型学习如何拒绝不安全请求,而GRPO微调则旨在优化模型在安全和有益维度上的表现。

技术框架:AM$^3$Safety框架包含两个主要阶段:1) 冷启动拒绝阶段:使用专门设计的拒绝VQA样本训练模型,使其能够识别并拒绝不安全请求。2) GRPO微调阶段:使用InterSafe-V数据集,利用turn-aware双目标奖励对模型进行微调。该奖励函数同时考虑了模型的安全性和有益性。

关键创新:AM$^3$Safety的关键创新在于:1) 提出了InterSafe-V数据集,该数据集更准确地反映了真实世界的场景,并包含为特定领域量身定制的VQA对。2) 提出了turn-aware双目标奖励函数,该函数能够同时优化模型的安全性和有益性。3) 使用GRPO进行微调,能够更有效地利用数据,提高模型的性能。

关键设计:InterSafe-V数据集包含11270个对话和500个专门设计的拒绝VQA样本。Turn-aware双目标奖励函数包含两个部分:安全奖励和有益奖励。安全奖励旨在惩罚模型生成不安全回复,而有益奖励旨在奖励模型生成有益的回复。GRPO微调使用相对策略优化,能够更有效地利用数据,提高模型的性能。

📊 实验亮点

在Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B上的实验表明,AM$^3$Safety框架在多模态多轮安全基准测试中,攻击成功率(ASR)降低了10%以上,同时MLLM的无害维度增加了至少8%,有益维度增加了13%以上,同时保留了它们的一般能力。这些结果表明,AM$^3$Safety能够有效地提高MLLM在多轮对话中的安全性。

🎯 应用场景

该研究成果可应用于各种多模态交互式应用,例如智能客服、虚拟助手、教育机器人等。通过提高MLLM在多轮对话中的安全性,可以减少有害信息的传播,保护用户免受潜在的风险,并提升用户体验。未来,该方法可以进一步扩展到更复杂的场景,例如涉及情感理解和推理的对话。

📄 摘要(原文)

Multi-modal Large Language Models (MLLMs) are increasingly deployed in interactive applications. However, their safety vulnerabilities become pronounced in multi-turn multi-modal scenarios, where harmful intent can be gradually reconstructed across turns, and security protocols fade into oblivion as the conversation progresses. Existing Reinforcement Learning from Human Feedback (RLHF) alignment methods are largely developed for single-turn visual question-answer (VQA) task and often require costly manual preference annotations, limiting their effectiveness and scalability in dialogues. To address this challenge, we present InterSafe-V, an open-source multi-modal dialogue dataset containing 11,270 dialogues and 500 specially designed refusal VQA samples. This dataset, constructed through interaction between several models, is designed to more accurately reflect real-world scenarios and includes specialized VQA pairs tailored for specific domains. Building on this dataset, we propose AM$^3$Safety, a framework that combines a cold-start refusal phase with Group Relative Policy Optimization (GRPO) fine-tuning using turn-aware dual-objective rewards across entire dialogues. Experiments on Qwen2.5-VL-7B-Instruct and LLaVA-NeXT-7B show more than 10\% decrease in Attack Success Rate (ASR) together with an increment of at least 8\% in harmless dimension and over 13\% in helpful dimension of MLLMs on multi-modal multi-turn safety benchmarks, while preserving their general abilities.