Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

📄 arXiv: 2603.04846v1 📥 PDF

作者: Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler

分类: cs.CV

发布日期: 2026-03-05

备注: Accepted by CVPR2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出多范式协同对抗攻击MPCAttack,提升多模态大语言模型对抗样本的迁移性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对抗攻击 对抗样本 迁移学习 多范式学习 协同优化 对比学习

📋 核心要点

  1. 现有MLLM对抗攻击方法依赖单一范式代理模型,特征表示受限,导致对抗扰动多样性不足。
  2. MPCAttack框架聚合视觉和语言语义表示,通过多范式协同优化策略进行联合对抗优化。
  3. 实验结果表明,MPCAttack在开源和闭源MLLM上,定向和非定向攻击均优于现有方法。

📝 摘要(中文)

多模态大语言模型(MLLMs)的快速发展显著推动了下游应用。然而,这也暴露了严重的可迁移对抗脆弱性。目前针对MLLMs的对抗攻击通常依赖于在单一学习范式下训练的代理模型,并在各自的特征空间中进行独立优化。这种直接的设置限制了特征表示的丰富性,从而限制了搜索空间,阻碍了对抗扰动的多样性。为了解决这个问题,我们提出了一种新的多范式协同攻击(MPCAttack)框架,以提高对抗样本对MLLMs的迁移性。MPCAttack从视觉图像和语言文本中聚合语义表示,通过多范式协同优化(MPCO)策略促进聚合特征上的联合对抗优化。通过对多范式特征执行对比匹配,MPCO自适应地平衡不同范式表示的重要性,并指导全局扰动优化,有效缓解了表示偏差。在多个基准上的大量实验结果表明了MPCAttack的优越性,表明我们的解决方案在开源和闭源MLLMs上的定向和非定向攻击中始终优于最先进的方法。

🔬 方法详解

问题定义:现有针对多模态大语言模型(MLLMs)的对抗攻击方法,通常基于单一学习范式下的代理模型,独立优化图像和文本特征空间中的扰动。这种方法生成的对抗样本迁移性较差,难以有效攻击未知的目标模型。其根本痛点在于特征表示的单一性和扰动搜索空间的局限性。

核心思路:MPCAttack的核心思路是利用多范式协同优化(MPCO)策略,融合来自视觉图像和语言文本的语义表示,从而在聚合的特征空间上进行联合对抗优化。通过对比匹配不同范式下的特征,自适应地平衡不同模态表示的重要性,并指导全局扰动优化,从而缓解单一范式带来的表示偏差,提升对抗样本的迁移性。

技术框架:MPCAttack框架主要包含以下几个阶段:1) 特征提取:分别从图像和文本输入中提取视觉和语言特征。2) 多范式协同优化(MPCO):通过对比学习的方式,对不同模态的特征进行对齐和融合,自适应地调整各模态的重要性。3) 对抗扰动生成:在融合后的特征空间上,生成对抗扰动,使其能够同时影响图像和文本的语义表示。4) 对抗样本生成:将生成的对抗扰动添加到原始图像和文本中,得到对抗样本。

关键创新:MPCAttack最关键的创新点在于其多范式协同优化(MPCO)策略。与以往独立优化不同模态特征的方法相比,MPCO能够有效地融合不同模态的信息,并自适应地调整各模态的重要性,从而生成更具迁移性的对抗样本。

关键设计:MPCO策略的关键设计包括:1) 对比损失函数:用于对齐不同模态的特征表示,使得相似的样本在特征空间中更接近,不相似的样本更远离。2) 自适应权重调整:根据不同模态特征的贡献程度,动态调整各模态的权重,从而更好地融合不同模态的信息。3) 扰动约束:为了保证对抗样本的质量,对生成的扰动进行约束,例如限制扰动的大小和范围。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MPCAttack在多个基准数据集上,针对开源和闭源的MLLM模型,均取得了显著的性能提升。在定向攻击和非定向攻击中,MPCAttack均优于现有的最先进方法。具体性能数据在论文中给出,表明MPCAttack能够有效提高对抗样本的迁移性,对MLLM构成更严重的威胁。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的安全性,防御恶意对抗攻击。例如,可以用于开发对抗防御机制,提高模型在实际应用中的鲁棒性。此外,该研究也有助于评估和改进MLLM的安全性,促进更安全可靠的多模态人工智能系统的发展。未来,该技术或可扩展到其他多模态任务,如视频理解、语音识别等。

📄 摘要(原文)

The rapid progress of Multi-Modal Large Language Models (MLLMs) has significantly advanced downstream applications. However, this progress also exposes serious transferable adversarial vulnerabilities. In general, existing adversarial attacks against MLLMs typically rely on surrogate models trained within a single learning paradigm and perform independent optimisation in their respective feature spaces. This straightforward setting naturally restricts the richness of feature representations, delivering limits on the search space and thus impeding the diversity of adversarial perturbations. To address this, we propose a novel Multi-Paradigm Collaborative Attack (MPCAttack) framework to boost the transferability of adversarial examples against MLLMs. In principle, MPCAttack aggregates semantic representations, from both visual images and language texts, to facilitate joint adversarial optimisation on the aggregated features through a Multi-Paradigm Collaborative Optimisation (MPCO) strategy. By performing contrastive matching on multi-paradigm features, MPCO adaptively balances the importance of different paradigm representations and guides the global perturbation optimisation, effectively alleviating the representation bias. Extensive experimental results on multiple benchmarks demonstrate the superiority of MPCAttack, indicating that our solution consistently outperforms state-of-the-art methods in both targeted and untargeted attacks on open-source and closed-source MLLMs. The code is released at https://github.com/LiYuanBoJNU/MPCAttack.