FaCT: Faithful Concept Traces for Explaining Neural Network Decisions
作者: Amin Parchami-Araghi, Sukrut Rao, Jonas Fischer, Bernt Schiele
分类: cs.LG, cs.AI, cs.CV
发布日期: 2025-10-29
备注: Accepted to NeurIPS 2025; Code is available at https://github.com/m-parchami/FaCT
💡 一句话要点
FaCT:提出可信的概念追踪方法,用于解释神经网络决策过程
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经网络解释性 概念学习 模型忠实性 可信AI 概念追踪 深度学习 图像分类
📋 核心要点
- 现有基于概念的神经网络解释方法通常不够忠实,且对概念的性质有诸多限制性假设。
- 论文提出一种新的模型,该模型具有模型内在的、机制性的概念解释,强调概念解释的忠实性。
- 实验表明,该方法在概念一致性方面优于现有方法,用户也认为其概念更易于理解,同时保持了ImageNet上的竞争力。
📝 摘要(中文)
深度网络在各种任务中表现出卓越的性能,但从全局概念层面理解它们如何运作仍然是一个关键挑战。许多事后基于概念的方法被引入以理解它们的工作方式,但它们并不总是忠实于模型。此外,它们对模型学习的概念做出了限制性假设,例如类别特异性、小空间范围或与人类期望的对齐。在这项工作中,我们强调这种基于概念的解释的忠实性,并提出了一种具有模型内在机制概念解释的新模型。我们的概念在类之间共享,并且从任何层,它们对logit的贡献和它们的输入可视化都可以被忠实地追踪。我们还利用基础模型提出了一种新的概念一致性指标,C$^2$-Score,可用于评估基于概念的方法。我们表明,与先前的工作相比,我们的概念在数量上更加一致,并且用户发现我们的概念更易于解释,同时保持了具有竞争力的ImageNet性能。
🔬 方法详解
问题定义:现有基于概念的神经网络解释方法存在不忠实于模型本身、对概念的类别特异性、空间范围以及与人类期望的对齐方式做出不合理的限制性假设等问题。这些限制使得我们难以真正理解神经网络是如何进行决策的,阻碍了模型的可信度和可解释性。
核心思路:论文的核心在于提出一种模型内在的、机制性的概念解释方法,即FaCT(Faithful Concept Traces)。该方法旨在通过学习共享的概念表示,并追踪这些概念对模型决策的贡献,从而提供更忠实、更易于理解的解释。核心思想是让模型本身就具备可解释性,而不是通过事后的方式进行解释。
技术框架:FaCT模型的整体框架包含以下几个主要模块:1) 概念学习模块:负责学习跨类别的共享概念表示。2) 概念追踪模块:用于追踪每个概念对模型输出logit的贡献。3) 输入可视化模块:将概念与输入图像相关联,实现概念的可视化。4) 概念一致性评估模块:利用基础模型评估概念的一致性,提出C$^2$-Score指标。整个流程是从输入图像开始,经过概念学习模块提取概念,然后通过概念追踪模块分析概念对最终决策的影响,最后通过可视化模块和一致性评估模块对概念进行验证和评估。
关键创新:该论文最重要的技术创新点在于提出了模型内在的、机制性的概念解释方法,即FaCT。与现有方法相比,FaCT不再依赖于事后的解释,而是将可解释性融入到模型的设计中。此外,论文还提出了一个新的概念一致性指标C$^2$-Score,该指标利用基础模型来评估概念的一致性,为概念解释的评估提供了一种新的思路。
关键设计:FaCT的关键设计包括:1) 共享概念表示:模型学习的不是类别特定的概念,而是跨类别的共享概念,这使得模型能够更好地泛化,并提供更通用的解释。2) 概念追踪机制:通过设计特定的网络结构和损失函数,模型能够追踪每个概念对最终决策的贡献,从而提供更细粒度的解释。3) C$^2$-Score:利用预训练的CLIP模型来评估概念的一致性,具体来说,将提取的概念表示和对应的文本描述输入到CLIP模型中,计算它们的相似度,相似度越高,说明概念的一致性越好。
📊 实验亮点
实验结果表明,FaCT模型在ImageNet数据集上取得了具有竞争力的性能,同时在概念一致性方面优于现有方法。用户研究表明,用户认为FaCT模型提供的概念解释更易于理解。C$^2$-Score指标的评估结果也表明,FaCT模型学习到的概念具有更高的一致性。
🎯 应用场景
该研究成果可应用于对神经网络决策过程进行解释和调试,提高模型的可信度和透明度。在医疗诊断、金融风控等高风险领域,该方法能够帮助人们理解模型的决策依据,从而更好地信任和使用AI系统。此外,该方法还可以用于发现模型中的偏差和漏洞,促进AI系统的公平性和安全性。
📄 摘要(原文)
Deep networks have shown remarkable performance across a wide range of tasks, yet getting a global concept-level understanding of how they function remains a key challenge. Many post-hoc concept-based approaches have been introduced to understand their workings, yet they are not always faithful to the model. Further, they make restrictive assumptions on the concepts a model learns, such as class-specificity, small spatial extent, or alignment to human expectations. In this work, we put emphasis on the faithfulness of such concept-based explanations and propose a new model with model-inherent mechanistic concept-explanations. Our concepts are shared across classes and, from any layer, their contribution to the logit and their input-visualization can be faithfully traced. We also leverage foundation models to propose a new concept-consistency metric, C$^2$-Score, that can be used to evaluate concept-based methods. We show that, compared to prior work, our concepts are quantitatively more consistent and users find our concepts to be more interpretable, all while retaining competitive ImageNet performance.