Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs

📄 arXiv: 2604.08846v1 📥 PDF

作者: Jinqi Luo, Jinyu Yang, Tal Neiman, Lei Fan, Bing Yin, Son Tran, Mubarak Shah, René Vidal

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2026-04-10

备注: Accepted in CVPR 2026. Project page: https://peterljq.github.io/project/daco


💡 一句话要点

提出DACO框架,通过概念字典对齐控制多模态LLM,提升安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 安全性 概念控制 稀疏自编码器 激活干预

📋 核心要点

  1. 现有MLLM安全方法难以应对恶意模式演变,且计算成本高昂,缺乏对模型激活的细粒度控制。
  2. DACO框架利用概念字典和稀疏自编码器,实现对MLLM激活的细粒度控制,从而提升安全性。
  3. 实验表明,DACO在多个MLLM和安全基准上显著提高了安全性,同时保持了通用能力。

📝 摘要(中文)

多模态大型语言模型(MLLM)容易受到恶意查询的攻击,从而产生不安全的回应。现有工作通常采用提示工程、响应分类或微调来提高MLLM的安全性,但这些方法对不断演变的恶意模式效果不佳,可能需要重新运行查询,或者需要大量的计算资源。本文提出了一种新的框架——字典对齐概念控制(DACO),它利用精心设计的概念字典和一个稀疏自编码器(SAE)来提供对MLLM激活的细粒度控制。首先,通过检索超过40万个标题-图像刺激并将其激活总结为概念方向,构建了一个包含15,000个多模态概念的字典,并命名为DACO-400K数据集。其次,证明了该字典可以通过稀疏编码来干预激活。第三,提出了一种新的steering方法,该方法使用字典来初始化SAE的训练,并自动注释SAE原子语义,以保障MLLM的安全性。在多个MLLM(如QwenVL、LLaVA、InternVL)和安全基准(如MM-SafetyBench、JailBreakV)上的实验表明,DACO显著提高了MLLM的安全性,同时保持了一般用途能力。

🔬 方法详解

问题定义:MLLM容易受到恶意查询攻击,产生不安全的回应。现有的安全方法,如提示工程、响应分类和微调,存在对新型攻击模式泛化能力差、计算成本高昂以及缺乏对模型内部激活状态的精细控制等问题。这些方法难以在保证安全性的同时,维持模型原有的通用能力。

核心思路:DACO的核心思路是构建一个包含丰富概念的字典,并利用该字典引导稀疏自编码器(SAE)的学习,从而实现对MLLM内部激活状态的精确干预。通过控制与安全相关的概念激活,可以在推理阶段动态地调整模型的行为,从而防御恶意攻击。这种方法无需重新训练模型,具有更高的灵活性和效率。

技术框架:DACO框架主要包含三个阶段:1) 概念字典构建:收集大量图像-文本对,提取MLLM在这些数据上的激活,并将其聚合成代表不同概念的方向向量,构建DACO-400K数据集。2) 稀疏自编码器训练:使用概念字典初始化SAE的训练,利用SAE学习MLLM激活的稀疏表示。3) 激活干预:在推理阶段,通过调整SAE的激活,干预MLLM的内部状态,从而控制模型的输出。

关键创新:DACO的关键创新在于:1) 大规模概念字典:构建了一个包含15,000个多模态概念的大规模字典,为细粒度控制提供了基础。2) 字典对齐的SAE训练:利用概念字典初始化SAE的训练,使得SAE能够更好地捕捉MLLM中的概念信息。3) 动态激活干预:在推理阶段动态地调整SAE的激活,从而实现对MLLM行为的灵活控制。与现有方法相比,DACO无需重新训练模型,且能够更精确地控制模型的行为。

关键设计:DACO的关键设计包括:1) DACO-400K数据集:包含超过40万个图像-文本对,覆盖了广泛的概念。2) 稀疏自编码器结构:采用稀疏自编码器,鼓励模型学习激活的稀疏表示,从而提高干预的精确性。3) 概念方向计算:通过对大量数据的激活进行聚类和平均,计算每个概念的方向向量。4) 损失函数设计:SAE的训练采用稀疏性约束,鼓励模型学习简洁的表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DACO在MM-SafetyBench和JailBreakV等安全基准上显著提高了MLLM的安全性。例如,在MM-SafetyBench上,DACO将QwenVL的安全性提高了超过20%。同时,DACO在提高安全性的同时,保持了模型在通用任务上的性能,避免了过度干预带来的负面影响。

🎯 应用场景

DACO框架可应用于各种多模态大型语言模型的安全防护,例如内容审核、防止恶意信息生成等。该方法能够有效提升MLLM在开放环境中的安全性,降低其被恶意利用的风险,具有重要的社会价值和商业应用前景。未来,可以进一步探索DACO在其他领域的应用,例如个性化推荐、智能对话等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have been shown to be vulnerable to malicious queries that can elicit unsafe responses. Recent work uses prompt engineering, response classification, or finetuning to improve MLLM safety. Nevertheless, such approaches are often ineffective against evolving malicious patterns, may require rerunning the query, or demand heavy computational resources. Steering the activations of a frozen model at inference time has recently emerged as a flexible and effective solution. However, existing steering methods for MLLMs typically handle only a narrow set of safety-related concepts or struggle to adjust specific concepts without affecting others. To address these challenges, we introduce Dictionary-Aligned Concept Control (DACO), a framework that utilizes a curated concept dictionary and a Sparse Autoencoder (SAE) to provide granular control over MLLM activations. First, we curate a dictionary of 15,000 multimodal concepts by retrieving over 400,000 caption-image stimuli and summarizing their activations into concept directions. We name the dataset DACO-400K. Second, we show that the curated dictionary can be used to intervene activations via sparse coding. Third, we propose a new steering approach that uses our dictionary to initialize the training of an SAE and automatically annotate the semantics of the SAE atoms for safeguarding MLLMs. Experiments on multiple MLLMs (e.g., QwenVL, LLaVA, InternVL) across safety benchmarks (e.g., MM-SafetyBench, JailBreakV) show that DACO significantly improves MLLM safety while maintaining general-purpose capabilities.