Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models
作者: Zixiang Peng, Yongxiu Xu, Qinyi Zhang, Jiexun Shen, Yifan Zhang, Hongbo Xu, Yubin Wang, Gaopeng Gou
分类: cs.AI, cs.LG
发布日期: 2026-04-01
💡 一句话要点
提出Uni-SafeBench,评估统一多模态大模型在多任务下的安全性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 安全性评估 统一模型 安全基准 Uni-SafeBench Uni-Judger 上下文安全 内在安全
📋 核心要点
- 现有安全基准侧重于孤立的理解或生成任务,无法全面评估统一多模态大模型在多任务下的安全性。
- Uni-SafeBench通过构建包含六个安全类别和七种任务类型的综合基准,来评估统一多模态大模型的安全性。
- 实验表明,统一过程虽然增强了模型能力,但显著降低了底层LLM的内在安全性,开源UMLM安全性表现更差。
📝 摘要(中文)
统一多模态大模型(UMLMs)在一个架构中集成了理解和生成能力。虽然这种由多模态特征的深度融合驱动的架构统一增强了模型性能,但也引入了重要但未被充分探索的安全性挑战。现有的安全基准主要侧重于孤立的理解或生成任务,无法评估UMLM在统一框架下处理各种任务时的整体安全性。为了解决这个问题,我们引入了Uni-SafeBench,这是一个全面的基准,包含七种任务类型中的六个主要安全类别。为了确保严格的评估,我们开发了Uni-Judger,一个有效地将上下文安全与内在安全分离的框架。基于Uni-SafeBench的全面评估,我们发现,虽然统一过程增强了模型能力,但它显著降低了底层LLM的内在安全性。此外,开源UMLM的安全性能远低于专门用于生成或理解任务的多模态大模型。我们开源所有资源,以系统地揭示这些风险并促进更安全的AGI开发。
🔬 方法详解
问题定义:论文旨在解决统一多模态大模型(UMLMs)在处理多种任务时存在的安全性问题。现有安全基准主要关注孤立的理解或生成任务,缺乏对UMLMs在统一框架下整体安全性的评估。因此,需要一个更全面的基准来评估UMLMs的安全性,并揭示潜在的安全风险。
核心思路:论文的核心思路是构建一个全面的安全基准Uni-SafeBench,该基准覆盖多种任务类型和安全类别,能够更全面地评估UMLMs的安全性。同时,开发Uni-Judger框架,用于区分上下文安全和内在安全,从而更准确地评估模型的安全性。
技术框架:Uni-SafeBench包含七种任务类型(例如,图像描述、视觉问答、文本生成等)和六个主要安全类别(例如,有害内容生成、隐私泄露、刻板印象等)。Uni-Judger框架用于评估模型在特定上下文下的安全性和模型本身固有的安全性,通过解耦上下文安全和内在安全,可以更准确地评估模型的安全性。
关键创新:论文的关键创新在于构建了一个全面的、多任务的UMLM安全基准Uni-SafeBench,并提出了Uni-Judger框架来区分上下文安全和内在安全。这使得能够更全面、更准确地评估UMLMs的安全性,并揭示潜在的安全风险。
关键设计:Uni-SafeBench的设计考虑了多种任务类型和安全类别,以覆盖UMLMs可能面临的各种安全风险。Uni-Judger框架的设计则侧重于解耦上下文安全和内在安全,通过控制上下文因素,可以更准确地评估模型的内在安全性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,统一过程虽然增强了模型能力,但显著降低了底层LLM的内在安全性。开源UMLM的安全性能远低于专门用于生成或理解任务的多模态大模型。Uni-SafeBench的评估结果揭示了UMLMs在安全性方面存在的挑战,为未来的研究提供了重要的参考。
🎯 应用场景
该研究成果可应用于评估和改进统一多模态大模型的安全性,促进更安全的通用人工智能(AGI)开发。通过Uni-SafeBench,开发者可以系统地识别和解决UMLMs中存在的安全漏洞,从而降低模型在实际应用中产生有害或不当行为的风险。该研究还有助于推动安全AI领域的发展,为构建更可靠、更负责任的AI系统提供参考。
📄 摘要(原文)
Unified Multimodal Large Models (UMLMs) integrate understanding and generation capabilities within a single architecture. While this architectural unification, driven by the deep fusion of multimodal features, enhances model performance, it also introduces important yet underexplored safety challenges. Existing safety benchmarks predominantly focus on isolated understanding or generation tasks, failing to evaluate the holistic safety of UMLMs when handling diverse tasks under a unified framework. To address this, we introduce Uni-SafeBench, a comprehensive benchmark featuring a taxonomy of six major safety categories across seven task types. To ensure rigorous assessment, we develop Uni-Judger, a framework that effectively decouples contextual safety from intrinsic safety. Based on comprehensive evaluations across Uni-SafeBench, we uncover that while the unification process enhances model capabilities, it significantly degrades the inherent safety of the underlying LLM. Furthermore, open-source UMLMs exhibit much lower safety performance than multimodal large models specialized for either generation or understanding tasks. We open-source all resources to systematically expose these risks and foster safer AGI development.