Causal Interpretation of Neural Network Computations with Contribution Decomposition
作者: Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus
分类: cs.LG, q-bio.NC
发布日期: 2026-03-06
备注: 32 pages, 19 figures. ICLR 2026 poster
💡 一句话要点
提出CODEC方法,通过贡献分解实现神经网络计算过程的可解释性与因果干预。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 神经网络可解释性 因果推断 贡献分解 稀疏自编码器 图像分类 神经科学 模型分析
📋 核心要点
- 现有神经网络可解释性方法主要依赖于激活模式分析,难以揭示神经元之间的因果关系和贡献。
- CODEC方法通过稀疏自编码器分解网络行为为神经元贡献的稀疏模式,从而揭示隐藏的因果过程。
- 实验表明,CODEC能有效控制和解释中间层,实现因果干预,并可视化驱动网络输出的关键图像组件。
📝 摘要(中文)
理解神经网络如何将输入转化为输出对于解释和操控其行为至关重要。现有方法主要通过识别与人类可解释概念相关的隐藏层激活模式来分析内部表示。本文提出了一种直接方法,研究隐藏神经元如何驱动网络输出。我们引入了CODEC(贡献分解),该方法使用稀疏自编码器将网络行为分解为隐藏神经元贡献的稀疏模式,揭示了仅通过分析激活无法确定的因果过程。将CODEC应用于基准图像分类网络,我们发现贡献在层间变得更加稀疏和高维,并且出乎意料地,它们逐渐解耦了对网络输出的正向和负向影响。我们进一步表明,将贡献分解为稀疏模式能够更好地控制和解释中间层,支持对网络输出的因果操作以及人类可解释的图像组件可视化,这些组件结合起来驱动输出。最后,通过分析脊椎动物视网膜神经活动的最先进模型,我们证明CODEC揭示了模型中间神经元的组合作用,并识别了动态感受野的来源。总而言之,CODEC提供了一个丰富且可解释的框架,用于理解非线性计算如何在分层层中演变,从而将贡献模式确立为一种信息丰富的分析单元,以深入了解人工神经网络的机制。
🔬 方法详解
问题定义:神经网络的可解释性是理解和控制其行为的关键挑战。现有方法,如激活模式分析,主要关注隐藏层神经元的激活与人类可解释概念的关联,但无法直接揭示神经元对最终输出的因果贡献,以及它们之间的相互作用。这些方法难以进行因果干预,也无法清晰地可视化驱动网络决策的关键输入特征。
核心思路:CODEC的核心思路是将神经网络的行为分解为隐藏神经元贡献的稀疏模式。通过学习隐藏神经元对输出的贡献,而不是仅仅关注它们的激活,CODEC能够揭示神经元之间的因果关系,并允许对网络输出进行更精确的控制和解释。稀疏性约束鼓励模型学习简洁且具有代表性的贡献模式,从而提高可解释性。
技术框架:CODEC方法主要包含以下几个阶段:1) 贡献计算:首先,计算每个隐藏神经元对网络输出的贡献。这可以通过梯度反向传播或其他敏感性分析方法实现。2) 稀疏自编码器训练:然后,使用稀疏自编码器学习隐藏神经元贡献的稀疏表示。自编码器的目标是重建原始贡献,同时鼓励表示的稀疏性。3) 贡献模式提取:最后,从训练好的自编码器中提取贡献模式。每个模式对应于一组协同工作的隐藏神经元,它们共同影响网络的输出。
关键创新:CODEC最重要的技术创新在于它将神经网络的可解释性问题转化为一个贡献分解问题。与传统的激活分析方法不同,CODEC直接关注神经元对输出的因果贡献,而不是仅仅关注它们的激活。通过稀疏自编码器学习贡献的稀疏表示,CODEC能够揭示隐藏的因果关系,并允许对网络输出进行更精确的控制和解释。
关键设计:CODEC的关键设计包括:1) 贡献度量:选择合适的贡献度量方法,例如梯度反向传播或敏感性分析,以准确评估每个神经元对输出的贡献。2) 稀疏性约束:调整稀疏自编码器的稀疏性参数,以平衡重建误差和表示的稀疏性。3) 自编码器结构:选择合适的自编码器结构,例如线性自编码器或非线性自编码器,以适应不同类型的神经网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CODEC能够有效地分解神经网络的行为为神经元贡献的稀疏模式。在图像分类任务中,CODEC揭示了隐藏神经元对网络输出的正向和负向影响逐渐解耦的现象。此外,CODEC还能够实现对网络输出的因果操作,并可视化驱动网络决策的关键图像组件。在视网膜模型分析中,CODEC成功识别了模型中间神经元的组合作用和动态感受野的来源。
🎯 应用场景
CODEC方法可应用于各种神经网络的可解释性分析,例如图像分类、自然语言处理和强化学习。它可以帮助研究人员理解神经网络的决策过程,发现潜在的偏见和漏洞,并开发更可靠和可信赖的AI系统。此外,CODEC还可以用于指导神经网络的优化和改进,例如通过识别冗余或不重要的神经元,从而提高网络的效率和泛化能力。
📄 摘要(原文)
Understanding how neural networks transform inputs into outputs is crucial for interpreting and manipulating their behavior. Most existing approaches analyze internal representations by identifying hidden-layer activation patterns correlated with human-interpretable concepts. Here we take a direct approach to examine how hidden neurons act to drive network outputs. We introduce CODEC (Contribution Decomposition), a method that uses sparse autoencoders to decompose network behavior into sparse motifs of hidden-neuron contributions, revealing causal processes that cannot be determined by analyzing activations alone. Applying CODEC to benchmark image-classification networks, we find that contributions grow in sparsity and dimensionality across layers and, unexpectedly, that they progressively decorrelate positive and negative effects on network outputs. We further show that decomposing contributions into sparse modes enables greater control and interpretation of intermediate layers, supporting both causal manipulations of network output and human-interpretable visualizations of distinct image components that combine to drive that output. Finally, by analyzing state-of-the-art models of neural activity in the vertebrate retina, we demonstrate that CODEC uncovers combinatorial actions of model interneurons and identifies the sources of dynamic receptive fields. Overall, CODEC provides a rich and interpretable framework for understanding how nonlinear computations evolve across hierarchical layers, establishing contribution modes as an informative unit of analysis for mechanistic insights into artificial neural networks.