Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks
作者: Haoyu Liu, Dingcheng Li, Lukas Rutishauser, Zeyu Zheng
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-03-04
💡 一句话要点
提出DMAST框架,提升多模态Web Agent在跨模态攻击下的鲁棒性与任务效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态Agent 对抗攻击 安全训练 强化学习 鲁棒性 跨模态 Web环境
📋 核心要点
- 现有Web Agent易受跨模态攻击,攻击者通过同时操纵视觉和文本信息,能有效欺骗Agent。
- DMAST框架通过模仿学习、监督微调和对抗强化学习三个阶段,共同训练Agent和攻击者,提升Agent的鲁棒性。
- 实验表明,DMAST在降低对抗风险的同时,显著提升了Agent在未见任务中的完成效率,优于现有防御方法。
📝 摘要(中文)
多模态Web Agent通过处理屏幕截图和可访问性树与Web界面交互,但其双流架构带来了一种未被充分探索的攻击面:攻击者将内容注入网页DOM,同时以一致的欺骗性叙述破坏两个观察通道。在MiniWob++上的漏洞分析表明,包含视觉成分的攻击远胜于纯文本注入,暴露了以文本为中心的VLM安全训练的关键缺陷。为此,我们提出了双模态多阶段对抗安全训练(DMAST)框架,将Agent-攻击者交互形式化为双人零和马尔可夫博弈,并通过三阶段流程共同训练双方:(1)从强大的教师模型进行模仿学习;(2)使用新颖的零确认策略进行oracle引导的监督微调,以在对抗噪声下灌输以任务为中心的推理;(3)通过Group Relative Policy Optimization (GRPO) 自博弈进行对抗强化学习。在分布外任务上,DMAST显著降低了对抗风险,同时使任务完成效率提高了一倍。我们的方法显著优于已建立的基于训练和基于Prompt的防御方法,展示了真正的协同进化进展和对复杂、未见环境的鲁棒泛化。
🔬 方法详解
问题定义:论文旨在解决多模态Web Agent在面对跨模态对抗攻击时,鲁棒性不足的问题。现有的Agent架构依赖于视觉和文本信息,攻击者可以通过同时操纵这两个模态的信息,使得Agent做出错误决策。现有的防御方法,如文本安全的VLM训练,无法有效应对这种攻击。
核心思路:论文的核心思路是将Agent和攻击者的交互建模成一个双人零和马尔可夫博弈,通过共同训练Agent和攻击者,使Agent能够更好地适应对抗环境。这种对抗训练的思路能够让Agent学习到更加鲁棒的特征表示,从而提高其在对抗攻击下的性能。
技术框架:DMAST框架包含三个主要阶段:(1)模仿学习:Agent通过模仿一个强大的教师模型来学习基本的任务完成能力。(2)监督微调:使用oracle引导的监督微调,通过零确认策略,使Agent在对抗噪声下专注于任务推理。(3)对抗强化学习:使用Group Relative Policy Optimization (GRPO) 自博弈进行对抗训练,进一步提升Agent的鲁棒性。
关键创新:DMAST的关键创新在于其双模态多阶段对抗训练框架。它不仅考虑了视觉和文本模态的协同攻击,还通过多阶段的训练流程,逐步提升Agent的鲁棒性。零确认策略和GRPO自博弈是该框架中的两个重要技术创新,前者能够使Agent在对抗噪声下专注于任务推理,后者能够有效地进行对抗训练。
关键设计:在模仿学习阶段,使用交叉熵损失函数来训练Agent。在监督微调阶段,使用零确认策略来过滤掉对抗噪声。在对抗强化学习阶段,使用GRPO算法来优化Agent的策略。具体的网络结构和参数设置在论文中有详细描述,但此处未提供。
🖼️ 关键图片
📊 实验亮点
DMAST在MiniWob++的分布外任务上,显著降低了对抗风险,同时使任务完成效率提高了一倍。相较于已有的基于训练和基于Prompt的防御方法,DMAST表现出更强的鲁棒性和泛化能力,证明了其在对抗环境下的有效性。
🎯 应用场景
该研究成果可应用于提升各种多模态智能Agent的安全性,例如智能客服、自动化测试工具、以及其他需要与复杂Web环境交互的系统。通过提高Agent的鲁棒性,可以减少因恶意攻击造成的损失,并增强用户对智能系统的信任。
📄 摘要(原文)
Multimodal web agents that process both screenshots and accessibility trees are increasingly deployed to interact with web interfaces, yet their dual-stream architecture opens an underexplored attack surface: an adversary who injects content into the webpage DOM simultaneously corrupts both observation channels with a consistent deceptive narrative. Our vulnerability analysis on MiniWob++ reveals that attacks including a visual component far outperform text-only injections, exposing critical gaps in text-centric VLM safety training. Motivated by this finding, we propose Dual-Modality Multi-Stage Adversarial Safety Training (DMAST), a framework that formalizes the agent-attacker interaction as a two-player zero-sum Markov game and co-trains both players through a three-stage pipeline: (1) imitation learning from a strong teacher model, (2) oracle-guided supervised fine-tuning that uses a novel zero-acknowledgment strategy to instill task-focused reasoning under adversarial noise, and (3) adversarial reinforcement learning via Group Relative Policy Optimization (GRPO) self-play. On out-of-distribution tasks, DMAST substantially mitigates adversarial risks while simultaneously doubling task completion efficiency. Our approach significantly outperforms established training-based and prompt-based defenses, demonstrating genuine co-evolutionary progress and robust generalization to complex, unseen environments.