Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

📄 arXiv: 2509.07149v1 📥 PDF

作者: Anatoly A. Krasnovsky

分类: cs.LG, cs.AI, cs.CL, cs.IT

发布日期: 2025-09-08

期刊: Russian Digidal Libraries, Vol. 28, No. 5, pp. 1103-1119, 2025


💡 一句话要点

提出有效信息一致性评分,用于量化Transformer回路的不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Transformer回路 可解释性 不确定性量化 因果涌现 有效信息 一致性评分 大型语言模型

📋 核心要点

  1. 现有方法缺乏量化Transformer回路行为一致性的形式化手段,难以评估其可信度。
  2. 论文提出有效信息一致性评分(EICS),结合层不一致性和因果涌现,评估回路行为的连贯性。
  3. 该方法是白盒的、单次的,计算效率高,并提供了分数解释和健全性检查的指导,但实证验证待完成。

📝 摘要(中文)

本文针对大型语言模型(LLM)中Transformer回路(TCs)的行为一致性问题,提出了一种形式化的单次评估方法,用于量化活跃回路的可信度。该方法基于系统理论,结合层/上同调和因果涌现的视角,提出了有效信息一致性评分(EICS)。EICS结合了(i)从局部雅可比矩阵和激活计算得到的归一化层不一致性,以及(ii)从相同前向状态导出的电路级因果涌现的高斯EI代理。该方法是白盒的、单次的,并明确了单元,因此分数是无量纲的。此外,本文还提供了关于分数解释、计算开销(具有快速和精确模式)以及玩具健全性检查分析的实用指导。LLM任务的实证验证被推迟。

🔬 方法详解

问题定义:论文旨在解决Transformer回路(TCs)的可信度问题。现有方法缺乏一种形式化的、单次评估的方法来量化TCs的行为一致性,从而难以判断活跃回路是否可靠。现有的可解释性方法往往关注于识别功能子图,但缺乏对这些子图行为一致性的量化评估。

核心思路:论文的核心思路是将系统理论中的层/上同调和因果涌现的概念应用于Transformer回路。通过计算局部雅可比矩阵和激活,可以评估层之间的不一致性。同时,利用高斯EI代理来估计电路级的因果涌现。将这两者结合起来,可以得到一个综合的评分,即有效信息一致性评分(EICS),用于量化TCs的行为一致性。

技术框架:EICS的计算框架主要包含两个部分:(1) 归一化层不一致性计算:利用局部雅可比矩阵和激活计算层之间的不一致性,并进行归一化处理。(2) 电路级因果涌现估计:使用高斯EI代理来估计电路级的因果涌现。EICS将这两个部分的结果进行结合,得到最终的评分。该框架是白盒的,可以明确地识别每个单元的贡献,并且是单次的,计算效率高。

关键创新:论文的关键创新在于提出了有效信息一致性评分(EICS),它是一种综合性的指标,可以量化Transformer回路的行为一致性。EICS结合了层不一致性和因果涌现的概念,提供了一种新的视角来理解和评估Transformer回路的行为。此外,该方法是白盒的、单次的,并且计算效率高,使其具有实际应用价值。

关键设计:EICS的关键设计包括:(1) 局部雅可比矩阵的计算方法:论文需要定义如何计算局部雅可比矩阵,以及如何利用这些矩阵来评估层之间的不一致性。(2) 高斯EI代理的设计:论文需要设计一个合适的EI代理,用于估计电路级的因果涌现。(3) EICS的计算公式:论文需要定义如何将层不一致性和因果涌现结合起来,得到最终的EICS评分。此外,论文还需要提供关于分数解释、计算开销以及健全性检查的指导。

📊 实验亮点

论文提出了有效信息一致性评分(EICS),并提供了关于分数解释、计算开销(具有快速和精确模式)以及玩具健全性检查分析的实用指导。虽然实证验证被推迟,但该方法为量化Transformer回路的行为一致性提供了一个新的思路和工具。

🎯 应用场景

该研究成果可应用于大型语言模型的安全性和可靠性评估,帮助识别和修复潜在的不一致行为。通过量化Transformer回路的行为一致性,可以提高模型的可解释性和可信度,从而促进LLM在安全敏感领域的应用,例如金融、医疗等。

📄 摘要(原文)

Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS combines (i) a normalized sheaf inconsistency computed from local Jacobians and activations, with (ii) a Gaussian EI proxy for circuit-level causal emergence derived from the same forward state. The construction is white-box, single-pass, and makes units explicit so that the score is dimensionless. We further provide practical guidance on score interpretation, computational overhead (with fast and exact modes), and a toy sanity-check analysis. Empirical validation on LLM tasks is deferred.