ProtoMask: Segmentation-Guided Prototype Learning
作者: Steffen Meinert, Philipp Schlinge, Nils Strodthoff, Martin Atzmueller
分类: cs.CV
发布日期: 2025-10-01
🔗 代码/项目: GITHUB
💡 一句话要点
ProtoMask:提出一种基于分割引导的原型学习方法,提升原型可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 原型学习 可解释人工智能 图像分割 细粒度分类 显著性分析
📋 核心要点
- 现有原型学习方法依赖后验显著性技术解释原型语义,但这些技术的可靠性受到质疑。
- ProtoMask利用图像分割模型,将显著性图计算限制在语义图像块,提高映射真实性。
- 实验表明,ProtoMask在细粒度分类数据集上表现出竞争性性能和独特的可解释性。
📝 摘要(中文)
近年来,可解释人工智能(XAI)的重要性日益凸显。基于原型案例推理的方法在可解释性方面展现出良好的改进前景。然而,这些方法通常依赖于额外的后验显著性技术来解释学习到的原型的语义。针对这些技术的可靠性和质量,已经出现了诸多批评。因此,我们研究了使用先进的图像分割基础模型来提高嵌入空间和输入空间之间映射的真实性。我们的目标是将显著性图的计算区域限制在预定义的语义图像块上,以减少此类可视化的不确定性。为了感知整个图像的信息,我们使用每个生成的分割掩码的边界框来裁剪图像。每个掩码都会在我们的新型模型架构ProtoMask中产生一个单独的输入。我们在三个流行的细粒度分类数据集上进行实验,使用广泛的指标,提供了关于可解释性特征的详细概述。与其他流行模型的比较表明,我们的模型具有竞争性的性能和独特的可解释性特征。
🔬 方法详解
问题定义:现有基于原型学习的可解释人工智能方法,通常需要依赖额外的后验显著性技术来解释学习到的原型的语义。然而,这些显著性技术的可靠性和质量一直备受质疑,导致原型解释的不确定性增加,影响了模型的可信度。因此,如何提高原型学习的可解释性,减少对不可靠的后验显著性技术的依赖,是一个亟待解决的问题。
核心思路:ProtoMask的核心思路是利用图像分割模型提供的语义信息,引导原型学习过程,从而提高原型与输入图像之间的映射关系。具体来说,通过图像分割模型将输入图像分割成多个语义区域,然后针对每个语义区域提取特征,并将其作为独立的输入进行原型学习。这样,每个原型都与特定的语义区域相关联,从而提高了原型的可解释性。
技术框架:ProtoMask的整体架构包含以下几个主要模块:1) 图像分割模块:使用预训练的图像分割模型(如SAM)将输入图像分割成多个语义区域,并为每个区域生成分割掩码。2) 图像裁剪模块:根据分割掩码的边界框,从原始图像中裁剪出对应的语义区域。3) 特征提取模块:对每个裁剪后的语义区域提取特征,可以使用卷积神经网络等方法。4) 原型学习模块:利用提取的特征进行原型学习,学习一组具有代表性的原型向量。5) 分类模块:基于学习到的原型向量,对输入图像进行分类。
关键创新:ProtoMask最重要的技术创新点在于利用图像分割模型提供的语义信息来引导原型学习过程。与传统的原型学习方法相比,ProtoMask能够学习到与特定语义区域相关联的原型,从而提高了原型的可解释性。此外,ProtoMask通过裁剪图像的方式,将全局信息分解为局部信息,有助于模型关注图像中重要的语义区域。
关键设计:ProtoMask的关键设计包括:1) 使用预训练的图像分割模型,可以有效利用已有的语义知识,减少模型的训练难度。2) 使用分割掩码的边界框进行图像裁剪,可以保证裁剪后的区域包含完整的语义信息。3) 可以选择不同的特征提取网络和原型学习算法,以适应不同的应用场景。损失函数的设计需要考虑分类精度和原型可解释性,例如可以使用交叉熵损失函数来保证分类精度,并使用正则化项来约束原型的分布。
📊 实验亮点
ProtoMask在三个细粒度分类数据集上进行了实验,结果表明,ProtoMask在保持竞争性分类性能的同时,显著提高了模型的可解释性。与其他流行的原型学习方法相比,ProtoMask能够提供更清晰、更可靠的原型解释,有助于用户理解模型的决策依据。具体性能数据和提升幅度在论文中详细给出。
🎯 应用场景
ProtoMask可应用于需要高可解释性的图像分类任务,例如医疗图像诊断、自动驾驶场景理解、以及工业质检等领域。通过提供与特定语义区域相关的原型解释,ProtoMask能够帮助用户理解模型的决策过程,提高模型的信任度,并为模型的改进提供指导。
📄 摘要(原文)
XAI gained considerable importance in recent years. Methods based on prototypical case-based reasoning have shown a promising improvement in explainability. However, these methods typically rely on additional post-hoc saliency techniques to explain the semantics of learned prototypes. Multiple critiques have been raised about the reliability and quality of such techniques. For this reason, we study the use of prominent image segmentation foundation models to improve the truthfulness of the mapping between embedding and input space. We aim to restrict the computation area of the saliency map to a predefined semantic image patch to reduce the uncertainty of such visualizations. To perceive the information of an entire image, we use the bounding box from each generated segmentation mask to crop the image. Each mask results in an individual input in our novel model architecture named ProtoMask. We conduct experiments on three popular fine-grained classification datasets with a wide set of metrics, providing a detailed overview on explainability characteristics. The comparison with other popular models demonstrates competitive performance and unique explainability features of our model. https://github.com/uos-sis/quanproto