Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution

📄 arXiv: 2603.01784v1 📥 PDF

作者: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang

分类: cs.CR, cs.AI

发布日期: 2026-03-02

备注: Preprint


💡 一句话要点

提出CEMMA,通过结构化对抗进化实现多模态对齐,提升安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对齐 对抗攻击 协同进化 大语言模型 安全对齐

📋 核心要点

  1. 现有对齐方法依赖静态对抗设置,在多模态场景下鲁棒性不足,面临更大的攻击面。
  2. 提出CEMMA框架,通过协同进化攻击和防御,实现多模态模型的安全对齐,提升模型鲁棒性。
  3. 实验表明,CEMMA显著提高越狱攻击成功率,同时提升模型鲁棒性和泛化能力,且数据效率更高。

📝 摘要(中文)

对抗行为在使大型语言模型与人类价值观对齐方面起着核心作用。然而,现有的对齐方法主要依赖于静态对抗设置,这从根本上限制了鲁棒性,尤其是在具有更大攻击面的多模态环境中。本文超越了静态对抗监督,引入了具有进化攻击的协同进化对齐,具体表现为CEMMA(协同进化多模态对齐),这是一个用于多模态安全对齐的自动化和自适应框架。我们引入了一个进化攻击器,它将对抗性提示分解为方法模板和有害意图。通过采用包括突变、交叉和差分进化在内的遗传算子,它使简单的种子攻击能够继承复杂越狱的结构有效性。自适应防御器在合成的困难负样本上迭代更新,形成一个闭环过程,使对齐适应不断演变的攻击。实验表明,进化攻击器显著提高了红队越狱攻击成功率(ASR),而自适应防御器提高了跨基准测试的鲁棒性和泛化能力,具有更高的数据效率,且不会导致过度的良性拒绝,并与诸如AdaShield之类的推理时防御兼容。

🔬 方法详解

问题定义:现有的大语言模型对齐方法,特别是多模态模型,在对抗性攻击下表现出脆弱性。传统的对抗训练方法通常采用静态的对抗样本,无法充分覆盖所有可能的攻击模式,导致模型在面对新型攻击时容易失效。因此,如何提升多模态模型在动态对抗环境下的鲁棒性是一个关键问题。

核心思路:本文的核心思路是引入协同进化机制,构建一个进化攻击器和一个自适应防御器。攻击器不断进化出更有效的对抗样本,而防御器则根据这些对抗样本进行迭代更新,从而形成一个闭环的对抗训练过程。通过这种方式,模型可以不断适应新的攻击模式,提高其鲁棒性和泛化能力。

技术框架:CEMMA框架包含两个主要模块:进化攻击器(Evolutionary Attacker)和自适应防御器(Adaptive Defender)。进化攻击器负责生成对抗样本,它将对抗提示分解为方法模板和有害意图,并利用遗传算法(包括突变、交叉和差分进化等算子)来不断优化这些提示。自适应防御器则利用进化攻击器生成的对抗样本进行训练,从而提高模型对这些攻击的抵抗能力。这两个模块相互作用,形成一个闭环的协同进化过程。

关键创新:CEMMA的关键创新在于其协同进化的对抗训练机制。与传统的静态对抗训练方法不同,CEMMA能够动态地生成和适应新的攻击模式,从而更有效地提高模型的鲁棒性。此外,CEMMA还引入了结构化的对抗提示生成方法,通过分解对抗提示为方法模板和有害意图,使得攻击更具针对性和有效性。

关键设计:进化攻击器使用遗传算法来优化对抗提示。具体来说,它将对抗提示表示为一个基因,并使用突变、交叉和差分进化等算子来生成新的基因。自适应防御器则使用这些对抗样本进行训练,通常采用标准的对抗训练损失函数。此外,为了避免模型过度拒绝良性输入,CEMMA还采用了正则化技术,以平衡模型的安全性和可用性。

📊 实验亮点

实验结果表明,CEMMA框架能够显著提高红队越狱攻击的成功率(ASR),同时提升模型在多个基准测试上的鲁棒性和泛化能力。与传统的对抗训练方法相比,CEMMA在数据效率方面表现更优,能够在更少的数据量下达到更好的性能。此外,CEMMA还与推理时防御机制(如AdaShield)兼容,进一步增强了模型的安全性。

🎯 应用场景

CEMMA框架可应用于各种多模态大语言模型的安全对齐,例如图像-文本模型、视频-文本模型等。它可以有效提升模型在开放环境下的鲁棒性,减少模型产生有害或不当内容的风险,从而促进多模态大语言模型在安全敏感领域的应用,例如智能客服、内容审核、自动驾驶等。

📄 摘要(原文)

Adversarial behavior plays a central role in aligning large language models with human values. However, existing alignment methods largely rely on static adversarial settings, which fundamentally limit robustness, particularly in multimodal settings with a larger attack surface. In this work, we move beyond static adversarial supervision and introduce co-evolutionary alignment with evolving attacks, instantiated by CEMMA (Co-Evolutionary Multi-Modal Alignment), an automated and adaptive framework for multimodal safety alignment. We introduce an Evolutionary Attacker that decomposes adversarial prompts into method templates and harmful intents. By employing genetic operators, including mutation, crossover, and differential evolution, it enables simple seed attacks to inherit the structural efficacy of sophisticated jailbreaks. The Adaptive Defender is iteratively updated on the synthesized hard negatives, forming a closed-loop process that adapts alignment to evolving attacks. Experiments show that the Evolutionary Attacker substantially increases red-teaming jailbreak attack success rate (ASR), while the Adaptive Defender improves robustness and generalization across benchmarks with higher data efficiency, without inducing excessive benign refusal, and remains compatible with inference-time defenses such as AdaShield.