SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification

作者: Hongbo Wang, MaungMaung AprilPyone, Isao Echizen

分类: cs.CL, cs.AI

发布日期: 2025-12-17

备注: Under Review for ACL 2026

💡 一句话要点

SGM：通过神经元级解毒为多模态大语言模型提供安全保障

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 毒性检测 神经元干预 白盒方法 安全保障 对抗攻击 可解释性

📋 核心要点

多模态大语言模型易受预训练数据中的毒性信息影响，在对抗性攻击下，现有的后期解毒方法难以有效处理。
SGM通过选择性地抑制模型中的“有毒”神经元，从而在不更新模型参数的情况下，降低模型输出的毒性。
实验表明，SGM能显著降低多模态大语言模型的毒性输出，有害率从48.2%降至2.5%，同时保持模型性能。

📝 摘要（中文）

注意：本文中的样本可能有害并引起不适。多模态大语言模型（MLLM）实现了多模态生成，但也继承了来自弱标注预训练语料库中的毒性、偏见和NSFW信号，导致安全风险，尤其是在对抗性触发下，这使得后期、不透明的无训练解毒方法难以处理。我们提出了SGM，一种白盒神经元级多模态干预方法，它像有毒神经元的安全眼镜一样：它通过专业知识加权的软抑制选择性地重新校准一小部分有毒专家神经元，从而在没有任何参数更新的情况下中和有害的跨模态激活。我们建立了MM-TOXIC-QA，一个多模态毒性评估框架，并将SGM与现有的解毒技术进行了比较。在开源MLLM上的实验表明，SGM减轻了标准和对抗条件下的毒性，将有害率从48.2％降低到2.5％，同时保持了流畅性和多模态推理能力。SGM是可扩展的，其组合防御，表示为SGM*，与现有的解毒方法集成，以获得更强的安全性能，为毒性控制的多模态生成提供了一种可解释、低成本的解决方案。

🔬 方法详解

问题定义：多模态大语言模型（MLLMs）在生成内容时，容易受到预训练数据中存在的毒性、偏见和不安全内容的影响。现有的解毒方法，特别是那些在模型训练完成后应用的（post-hoc detoxification methods），在面对对抗性攻击时效果不佳，并且缺乏透明性和可解释性。因此，如何有效地降低MLLMs的毒性，尤其是在对抗性场景下，是一个重要的研究问题。

核心思路：SGM的核心思路是通过识别并干预模型中负责生成毒性内容的神经元，从而实现对MLLMs的解毒。具体来说，SGM通过一种“神经元级”的干预手段，选择性地抑制那些被认为是“有毒”的神经元的激活，从而降低模型生成毒性内容的概率。这种方法类似于给模型戴上“安全眼镜”，过滤掉有害信息。

技术框架：SGM的技术框架主要包含以下几个步骤：1) 毒性神经元识别：使用特定的方法（文中未明确说明具体方法，但提到是基于专家知识加权）识别模型中负责生成毒性内容的神经元。2) 神经元激活抑制：对识别出的“有毒”神经元进行激活抑制，具体方法是使用一种“软抑制”策略，即根据神经元的“毒性程度”对其激活进行加权抑制。3) 模型输出评估：使用MM-TOXIC-QA框架评估模型输出的毒性程度，并根据评估结果调整神经元抑制策略。整个过程无需对模型参数进行更新。

关键创新：SGM的关键创新在于其“神经元级”的干预策略。与传统的解毒方法不同，SGM不是简单地对模型的输出进行过滤或修改，而是直接干预模型内部的神经元激活，从而从根本上降低模型生成毒性内容的概率。此外，SGM是一种白盒方法，具有较好的可解释性，可以帮助研究人员理解模型生成毒性内容的原因。

关键设计：SGM的关键设计包括：1) 专家知识加权：在识别“有毒”神经元时，SGM利用专家知识对神经元进行加权，从而提高识别的准确性。2) 软抑制策略：SGM使用一种“软抑制”策略，根据神经元的“毒性程度”对其激活进行加权抑制，避免对模型性能产生过大的影响。3) MM-TOXIC-QA框架：SGM使用MM-TOXIC-QA框架评估模型输出的毒性程度，并根据评估结果调整神经元抑制策略。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述，需要参考原文。

📊 实验亮点

SGM在开源MLLM上的实验结果表明，该方法能够显著降低模型的毒性输出，将有害率从48.2%降低到2.5%，同时保持了模型的流畅性和多模态推理能力。此外，SGM还可以与现有的解毒方法集成，以获得更强的安全性能。MM-TOXIC-QA框架为多模态毒性评估提供了一个标准。

🎯 应用场景

SGM技术可应用于各种多模态大语言模型，以提高其安全性和可靠性。例如，可以将其应用于聊天机器人、内容生成平台等，以防止模型生成有害、不安全或不适当的内容。该技术还有助于提高模型的可控性，使其能够更好地满足用户的需求，并降低潜在的法律和伦理风险。

📄 摘要（原文）

Disclaimer: Samples in this paper may be harmful and cause discomfort. Multimodal large language models (MLLMs) enable multimodal generation but inherit toxic, biased, and NSFW signals from weakly curated pretraining corpora, causing safety risks, especially under adversarial triggers that late, opaque training-free detoxification methods struggle to handle. We propose SGM, a white-box neuron-level multimodal intervention that acts like safety glasses for toxic neurons: it selectively recalibrates a small set of toxic expert neurons via expertise-weighted soft suppression, neutralizing harmful cross-modal activations without any parameter updates. We establish MM-TOXIC-QA, a multimodal toxicity evaluation framework, and compare SGM with existing detoxification techniques. Experiments on open-source MLLMs show that SGM mitigates toxicity in standard and adversarial conditions, cutting harmful rates from 48.2\% to 2.5\% while preserving fluency and multimodal reasoning. SGM is extensible, and its combined defenses, denoted as SGM*, integrate with existing detoxification methods for stronger safety performance, providing an interpretable, low-cost solution for toxicity-controlled multimodal generation.

SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册