Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

作者: Haoyu Liu, Dingcheng Li, Lukas Rutishauser, Zeyu Zheng

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-04

💡 一句话要点

提出DMAST框架，提升多模态Web Agent在跨模态攻击下的鲁棒性与任务效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 对抗攻击 安全训练 强化学习 鲁棒性 跨模态 Web环境

📋 核心要点

现有Web Agent易受跨模态攻击，攻击者通过同时操纵视觉和文本信息，能有效欺骗Agent。
DMAST框架通过模仿学习、监督微调和对抗强化学习三个阶段，共同训练Agent和攻击者，提升Agent的鲁棒性。
实验表明，DMAST在降低对抗风险的同时，显著提升了Agent在未见任务中的完成效率，优于现有防御方法。

📝 摘要（中文）

多模态Web Agent通过处理屏幕截图和可访问性树与Web界面交互，但其双流架构带来了一种未被充分探索的攻击面：攻击者将内容注入网页DOM，同时以一致的欺骗性叙述破坏两个观察通道。在MiniWob++上的漏洞分析表明，包含视觉成分的攻击远胜于纯文本注入，暴露了以文本为中心的VLM安全训练的关键缺陷。为此，我们提出了双模态多阶段对抗安全训练（DMAST）框架，将Agent-攻击者交互形式化为双人零和马尔可夫博弈，并通过三阶段流程共同训练双方：（1）从强大的教师模型进行模仿学习；（2）使用新颖的零确认策略进行oracle引导的监督微调，以在对抗噪声下灌输以任务为中心的推理；（3）通过Group Relative Policy Optimization (GRPO) 自博弈进行对抗强化学习。在分布外任务上，DMAST显著降低了对抗风险，同时使任务完成效率提高了一倍。我们的方法显著优于已建立的基于训练和基于Prompt的防御方法，展示了真正的协同进化进展和对复杂、未见环境的鲁棒泛化。

🔬 方法详解

问题定义：论文旨在解决多模态Web Agent在面对跨模态对抗攻击时，鲁棒性不足的问题。现有的Agent架构依赖于视觉和文本信息，攻击者可以通过同时操纵这两个模态的信息，使得Agent做出错误决策。现有的防御方法，如文本安全的VLM训练，无法有效应对这种攻击。

核心思路：论文的核心思路是将Agent和攻击者的交互建模成一个双人零和马尔可夫博弈，通过共同训练Agent和攻击者，使Agent能够更好地适应对抗环境。这种对抗训练的思路能够让Agent学习到更加鲁棒的特征表示，从而提高其在对抗攻击下的性能。

技术框架：DMAST框架包含三个主要阶段：（1）模仿学习：Agent通过模仿一个强大的教师模型来学习基本的任务完成能力。（2）监督微调：使用oracle引导的监督微调，通过零确认策略，使Agent在对抗噪声下专注于任务推理。（3）对抗强化学习：使用Group Relative Policy Optimization (GRPO) 自博弈进行对抗训练，进一步提升Agent的鲁棒性。

关键创新：DMAST的关键创新在于其双模态多阶段对抗训练框架。它不仅考虑了视觉和文本模态的协同攻击，还通过多阶段的训练流程，逐步提升Agent的鲁棒性。零确认策略和GRPO自博弈是该框架中的两个重要技术创新，前者能够使Agent在对抗噪声下专注于任务推理，后者能够有效地进行对抗训练。

关键设计：在模仿学习阶段，使用交叉熵损失函数来训练Agent。在监督微调阶段，使用零确认策略来过滤掉对抗噪声。在对抗强化学习阶段，使用GRPO算法来优化Agent的策略。具体的网络结构和参数设置在论文中有详细描述，但此处未提供。

🖼️ 关键图片

📊 实验亮点

DMAST在MiniWob++的分布外任务上，显著降低了对抗风险，同时使任务完成效率提高了一倍。相较于已有的基于训练和基于Prompt的防御方法，DMAST表现出更强的鲁棒性和泛化能力，证明了其在对抗环境下的有效性。

🎯 应用场景

该研究成果可应用于提升各种多模态智能Agent的安全性，例如智能客服、自动化测试工具、以及其他需要与复杂Web环境交互的系统。通过提高Agent的鲁棒性，可以减少因恶意攻击造成的损失，并增强用户对智能系统的信任。

📄 摘要（原文）

Multimodal web agents that process both screenshots and accessibility trees are increasingly deployed to interact with web interfaces, yet their dual-stream architecture opens an underexplored attack surface: an adversary who injects content into the webpage DOM simultaneously corrupts both observation channels with a consistent deceptive narrative. Our vulnerability analysis on MiniWob++ reveals that attacks including a visual component far outperform text-only injections, exposing critical gaps in text-centric VLM safety training. Motivated by this finding, we propose Dual-Modality Multi-Stage Adversarial Safety Training (DMAST), a framework that formalizes the agent-attacker interaction as a two-player zero-sum Markov game and co-trains both players through a three-stage pipeline: (1) imitation learning from a strong teacher model, (2) oracle-guided supervised fine-tuning that uses a novel zero-acknowledgment strategy to instill task-focused reasoning under adversarial noise, and (3) adversarial reinforcement learning via Group Relative Policy Optimization (GRPO) self-play. On out-of-distribution tasks, DMAST substantially mitigates adversarial risks while simultaneously doubling task completion efficiency. Our approach significantly outperforms established training-based and prompt-based defenses, demonstrating genuine co-evolutionary progress and robust generalization to complex, unseen environments.

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理