Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

📄 arXiv: 2603.01752v1 📥 PDF

作者: Ihor Kendiukhov

分类: cs.LG, q-bio.CB, q-bio.GN

发布日期: 2026-03-02


💡 一句话要点

提出因果回路追踪方法,揭示单细胞Foundation模型中独特的计算架构。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果回路追踪 单细胞Foundation模型 稀疏自编码器 生物学一致性 抑制优势

📋 核心要点

  1. 生物学Foundation模型缺乏对网络深度中特征间因果关系的理解,现有方法难以揭示其内部计算机制。
  2. 通过消融SAE特征并追踪下游响应,提出的因果回路追踪方法能够有效揭示模型内部的因果交互。
  3. 实验表明,Geneformer和scGPT模型具有生物学一致性和抑制优势,且跨模型共识能够识别疾病相关域。

📝 摘要(中文)

本研究提出了一种因果回路追踪方法,通过消融稀疏自编码器(SAE)的特征并测量下游响应,来探索生物学Foundation模型中跨网络深度的特征间因果交互。该方法应用于Geneformer V2-316M和scGPT全人模型,跨越四种条件(96,892条边,80,191次前向传递)。结果表明,两种模型均表现出约53%的生物学一致性和65%至89%的抑制优势,且与架构和细胞类型无关。scGPT产生更强的效应(平均绝对d = 1.40 vs. 1.05),具有更平衡的动态。跨模型共识产生1,142个保守域对(10.6倍富集,p < 0.001)。疾病相关域的共识可能性高3.59倍。基因水平的CRISPRi验证显示56.4%的方向准确性,证实了共表达而非因果编码。

🔬 方法详解

问题定义:现有生物学Foundation模型,如Geneformer和scGPT,虽然能够进行单细胞数据的建模和预测,但缺乏对模型内部特征之间因果关系的理解。现有的稀疏自编码器(SAE)虽然可以提取可解释的特征,但无法揭示这些特征在网络深度上的因果交互,阻碍了对模型计算机制的深入理解。

核心思路:本研究的核心思路是通过因果干预的方法,即消融SAE提取的特征,并观察下游特征的响应变化,从而推断特征之间的因果关系。这种方法类似于电路追踪,可以揭示模型内部的信息流动和计算过程。通过分析大量的特征间交互,可以发现模型中存在的计算架构和生物学规律。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 使用稀疏自编码器(SAE)对Foundation模型的激活进行分解,提取可解释的特征。2) 选择特定的SAE特征进行消融,即将其激活值设置为零。3) 通过Foundation模型进行前向传播,计算下游特征的响应变化。4) 分析大量的特征消融实验结果,构建特征之间的因果关系网络。5) 对因果关系网络进行分析,识别模型中存在的计算架构和生物学规律。

关键创新:本研究的关键创新在于提出了因果回路追踪方法,将因果推断的思想引入到生物学Foundation模型的可解释性分析中。与传统的特征重要性分析方法不同,该方法能够揭示特征之间的因果关系,从而更深入地理解模型的计算机制。此外,该研究还通过跨模型共识分析,发现了不同模型之间共享的计算架构和生物学规律。

关键设计:在实验设计方面,该研究选择了Geneformer V2-316M和scGPT两个具有代表性的生物学Foundation模型,并跨越四种不同的实验条件。为了保证实验结果的可靠性,该研究进行了大量的特征消融实验(96,892条边,80,191次前向传递)。在数据分析方面,该研究使用了多种统计方法,包括富集分析和方向准确性评估,以验证实验结果的显著性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Geneformer和scGPT模型均表现出约53%的生物学一致性和65%至89%的抑制优势。scGPT产生更强的效应(平均绝对d = 1.40 vs. 1.05)。跨模型共识产生1,142个保守域对(10.6倍富集,p < 0.001),疾病相关域的共识可能性高3.59倍。基因水平的CRISPRi验证显示56.4%的方向准确性。

🎯 应用场景

该研究成果可应用于深入理解单细胞Foundation模型的内部机制,为模型改进和优化提供指导。此外,通过识别疾病相关域,有助于发现潜在的药物靶点和治疗策略。该方法还可推广到其他生物学模型和人工智能模型,促进跨领域的知识发现。

📄 摘要(原文)

Motivation: Sparse autoencoders (SAEs) decompose foundation model activations into interpretable features, but causal feature-to-feature interactions across network depth remain unknown for biological foundation models. Results: We introduce causal circuit tracing by ablating SAE features and measuring downstream responses, and apply it to Geneformer V2-316M and scGPT whole-human across four conditions (96,892 edges, 80,191 forward passes). Both models show approximately 53 percent biological coherence and 65 to 89 percent inhibitory dominance, invariant to architecture and cell type. scGPT produces stronger effects (mean absolute d = 1.40 vs. 1.05) with more balanced dynamics. Cross-model consensus yields 1,142 conserved domain pairs (10.6x enrichment, p < 0.001). Disease-associated domains are 3.59x more likely to be consensus. Gene-level CRISPRi validation shows 56.4 percent directional accuracy, confirming co-expression rather than causal encoding.