When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models
作者: Qitong Wang, Haoran Dai, Haotian Zhang, Christopher Rasmussen, Binghui Wang
分类: cs.LG
发布日期: 2026-03-06
备注: Accepted to the ICLR 2026 Workshop on Principled Design for Trustworthy AI. The first two authors contributed equally
💡 一句话要点
揭示多模态扩散模型后门攻击中的模态坍塌现象,强调单模态主导风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态扩散模型 后门攻击 模态坍塌 触发模态归因 交叉触发交互 安全漏洞 对抗性攻击
📋 核心要点
- 多模态扩散模型易受后门攻击,但现有研究假设多模态攻击具有协同效应,忽略了模态间的相互作用。
- 论文提出“后门模态坍塌”现象,即后门攻击退化为依赖少数模态,其他模态变得冗余,并设计了TMA和CTI指标进行量化。
- 实验表明,多模态后门攻击存在“赢者通吃”现象,攻击效果主要由少数模态主导,模态间交互作用很小甚至为负。
📝 摘要(中文)
扩散模型在视觉内容生成领域取得了革命性进展,但其快速普及也凸显了研究漏洞(例如后门攻击)的关键需求。在多模态扩散模型中,人们自然会期望同时攻击多个模态(例如,文本和图像)会产生互补效应并加强整体后门。本文挑战了这一假设,研究了后门模态坍塌现象,即后门机制退化为主要依赖于模态的子集,从而使其他模态变得冗余。为了严格量化这种行为,我们引入了两个新的指标:触发模态归因(TMA)和交叉触发交互(CTI)。通过在多模态条件扩散中进行各种训练配置的广泛实验,我们一致观察到后门行为中的“赢者通吃”动态。我们的结果表明:(1)攻击通常会崩溃为子集模态支配,以及(2)交叉模态交互可以忽略不计甚至为负,这与协同漏洞的直觉相矛盾。这些发现突出了当前评估中的一个关键盲点,表明高攻击成功率通常掩盖了对模态子集的根本依赖。这为机械分析和未来防御开发奠定了原则性基础。
🔬 方法详解
问题定义:现有的多模态扩散模型后门攻击研究,通常假设多个模态的攻击效果是互补和协同的,即同时攻击多个模态会增强后门效果。然而,这种假设忽略了模态之间的复杂交互关系,可能导致对模型脆弱性的错误评估。论文旨在研究多模态扩散模型中,后门攻击是否真的能够有效利用所有模态,或者是否存在某些模态在攻击中占据主导地位,而其他模态的作用被弱化甚至忽略的现象。
核心思路:论文的核心思路是挑战多模态后门攻击的协同效应假设,提出“后门模态坍塌”的概念,即后门攻击的效果主要依赖于少数几个模态,而其他模态的作用被弱化甚至忽略。为了验证这一假设,论文设计了触发模态归因(TMA)和交叉触发交互(CTI)两个指标,用于量化不同模态在后门攻击中的贡献和交互作用。通过实验分析,揭示多模态后门攻击中存在的“赢者通吃”现象,即少数模态主导攻击效果。
技术框架:论文的研究框架主要包括以下几个部分:1) 构建多模态条件扩散模型,例如基于文本和图像的多模态扩散模型;2) 设计后门攻击策略,在训练数据中植入触发器,使模型在特定条件下生成目标输出;3) 提出触发模态归因(TMA)和交叉触发交互(CTI)两个指标,用于量化不同模态在后门攻击中的贡献和交互作用;4) 进行实验,分析不同训练配置下,后门攻击的模态坍塌现象,并验证TMA和CTI指标的有效性。
关键创新:论文的关键创新在于:1) 首次提出“后门模态坍塌”的概念,挑战了多模态后门攻击的协同效应假设;2) 设计了触发模态归因(TMA)和交叉触发交互(CTI)两个指标,用于量化不同模态在后门攻击中的贡献和交互作用,为分析模态坍塌现象提供了有效工具;3) 通过实验揭示了多模态后门攻击中存在的“赢者通吃”现象,为多模态扩散模型的安全评估和防御提供了新的视角。与现有方法相比,该研究更关注模态间的相互作用,能够更准确地评估多模态扩散模型的脆弱性。
关键设计:TMA指标用于衡量单个模态触发器对后门攻击成功率的贡献,计算方式是移除该模态的触发器后,攻击成功率的下降程度。CTI指标用于衡量不同模态触发器之间的交互作用,计算方式是同时移除两个模态的触发器后,攻击成功率的下降程度与分别移除两个模态触发器后攻击成功率下降程度之和的差值。实验中,论文采用了多种训练配置,包括不同的数据集、模型结构和攻击策略,以验证模态坍塌现象的普遍性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在多模态扩散模型中,后门攻击通常会坍塌为少数模态主导,例如文本模态或图像模态。TMA指标显示,主导模态的触发器对攻击成功率的贡献远大于其他模态。CTI指标显示,模态间的交互作用很小甚至为负,表明多模态攻击并未产生协同效应。这些结果挑战了现有研究的假设,为多模态扩散模型的安全评估提供了新的视角。
🎯 应用场景
该研究成果可应用于提升多模态扩散模型的安全性,例如设计更有效的后门防御机制,避免模型过度依赖单一模态。此外,该研究也为多模态模型的鲁棒性评估提供了新的思路,有助于开发更可靠的多模态人工智能系统,应用领域包括图像生成、文本生成、语音合成等。
📄 摘要(原文)
While diffusion models have revolutionized visual content generation, their rapid adoption has underscored the critical need to investigate vulnerabilities, e.g., to backdoor attacks. In multimodal diffusion models, it is natural to expect that attacking multiple modalities simultaneously (e.g., text and image) would yield complementary effects and strengthen the overall backdoor. In this paper, we challenge this assumption by investigating the phenomenon of Backdoor Modality Collapse, a scenario where the backdoor mechanism degenerates to rely predominantly on a subset of modalities, rendering others redundant. To rigorously quantify this behavior, we introduce two novel metrics: Trigger Modality Attribution (TMA) and Cross-Trigger Interaction (CTI). Through extensive experiments across diverse training configurations in multimodal conditional diffusion, we consistently observe a ``winner-takes-all'' dynamic in backdoor behavior. Our results reveal that (1) attacks often collapse into subset-modality dominance, and (2) cross-modal interaction is negligible or even negative, contradicting the intuition of synergistic vulnerability. These findings highlight a critical blind spot in current assessments, suggesting that high attack success rates often mask a fundamental reliance on a subset of modalities. This establishes a principled foundation for mechanistic analysis and future defense development.