Finding Belief Geometries with Sparse Autoencoders

📄 arXiv: 2604.02685 📥 PDF

作者: Matthew Levinson

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

利用稀疏自编码器发现Transformer中的信念几何结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释性 大型语言模型 稀疏自编码器 信念状态 几何表征 因果引导 Transformer

📋 核心要点

  1. 大型语言模型内部表征的几何结构尚不明确,特别是是否编码了类似概率信念状态的结构。
  2. 提出一种结合稀疏自编码器、k-子空间聚类和单纯形拟合的流程,用于发现Transformer中的单纯形结构子空间。
  3. 在Gemma-2-9B中发现了具有潜在单纯形几何结构的聚类,并初步验证了信念状几何结构的存在。

📝 摘要(中文)

理解内部表征的几何结构是可解释性研究的核心目标。先前研究表明,在隐马尔可夫模型生成的序列上训练的Transformer会将概率信念状态编码为残差流中单纯形形状的几何结构,顶点对应于潜在生成状态。大型语言模型在自然文本上训练是否发展出类似的几何表征仍然是一个悬而未决的问题。本文介绍了一种用于发现Transformer表征中候选单纯形结构子空间的流程,该流程结合了稀疏自编码器(SAE)、SAE特征的k-子空间聚类以及使用AANet的单纯形拟合。我们在一个在具有已知信念状态几何结构的多部分隐马尔可夫模型上训练的Transformer上验证了该流程。应用于Gemma-2-9B,我们识别出13个表现出候选单纯形几何结构(K≥3)的优先级聚类。一个关键挑战是将真正的信念状态编码与平铺伪像区分开来:潜在变量可以跨越单纯形形状的子空间,而混合坐标除了任何单个特征之外,没有携带预测信号。因此,我们采用重心预测作为我们的主要区分测试。在13个优先级聚类中,3个在近顶点样本上表现出非常显着的优势(Wilcoxon p < 10^{-14}),4个在单纯形内部样本上表现出显着优势。总共有5个不同的真实聚类通过了至少一个分割,而没有空聚类通过任何一个分割。一个聚类768_596,还在数据集中实现了最高的因果引导分数。这是被动预测和主动干预收敛的唯一案例。我们将这些发现作为初步证据,表明Gemma-2-9B的表征空间中存在真正的信念状几何结构,并确定了确认这种解释所需的结构化评估。

🔬 方法详解

问题定义:论文旨在探究大型语言模型(LLM)是否像在隐马尔可夫模型(HMM)上训练的Transformer一样,在内部表征中编码了概率信念状态的几何结构,特别是单纯形结构。现有方法难以区分真正的信念状态编码和由特征平铺产生的伪像,即模型可能只是简单地利用某些特征来预测,而没有真正理解概率信念。

核心思路:核心思路是通过稀疏自编码器(SAE)提取Transformer的内部表征特征,然后利用k-子空间聚类找到潜在的单纯形结构,最后使用重心预测来验证这些结构是否真正编码了信念状态。这种方法旨在克服现有方法无法区分真实信念状态编码和平铺伪像的局限性,通过主动预测来验证几何结构的有效性。

技术框架:整体流程包括以下几个主要阶段: 1. 稀疏自编码器(SAE)训练:使用SAE从Transformer的残差流中提取稀疏特征。 2. k-子空间聚类:对SAE提取的特征进行k-子空间聚类,寻找潜在的单纯形结构。 3. 单纯形拟合:使用AANet对聚类结果进行单纯形拟合,确定单纯形的顶点。 4. 重心预测验证:使用重心坐标进行预测,验证单纯形结构是否编码了信念状态。

关键创新:论文的关键创新在于提出了一个完整的流程,用于发现和验证LLM中的信念几何结构,并特别强调了区分真实信念状态编码和平铺伪像的重要性。重心预测验证方法是区分这两种情况的关键手段,通过主动预测来验证几何结构的有效性。

关键设计: * 稀疏自编码器:用于提取Transformer内部表征的稀疏特征,有助于发现潜在的结构。 * k-子空间聚类:用于寻找潜在的单纯形结构,需要选择合适的k值。 * AANet:用于单纯形拟合,需要调整网络结构和训练参数以获得准确的顶点。 * 重心预测:使用单纯形的重心坐标进行预测,并与真实标签进行比较,以验证单纯形结构是否编码了信念状态。Wilcoxon 符号秩检验用于评估预测结果的显著性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Gemma-2-9B中,研究者识别出13个优先级聚类,其中3个在近顶点样本上表现出显著的重心预测优势(Wilcoxon p < 10^{-14}),4个在单纯形内部样本上表现出优势。聚类768_596实现了最高的因果引导分数,表明被动预测和主动干预在此处收敛。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可控性。通过理解模型内部表征的几何结构,可以更好地理解模型的推理过程,并可能通过干预这些结构来引导模型的行为。此外,该方法还可以用于评估不同模型的信念表征能力,从而指导模型的设计和训练。

📄 摘要(原文)

Understanding the geometric structure of internal representations is a central goal of mechanistic interpretability. Prior work has shown that transformers trained on sequences generated by hidden Markov models encode probabilistic belief states as simplex-shaped geometries in their residual stream, with vertices corresponding to latent generative states. Whether large language models trained on naturalistic text develop analogous geometric representations remains an open question.We introduce a pipeline for discovering candidate simplex-structured subspaces in transformer representations, combining sparse autoencoders (SAEs), $k$-subspace clustering of SAE features, and simplex fitting using AANet. We validate the pipeline on a transformer trained on a multipartite hidden Markov model with known belief-state geometry. Applied to Gemma-2-9B, we identify 13 priority clusters exhibiting candidate simplex geometry ($K \geq 3$).A key challenge is distinguishing genuine belief-state encoding from tiling artifacts: latents can span a simplex-shaped subspace without the mixture coordinates carrying predictive signal beyond any individual feature. We therefore adopt barycentric prediction as our primary discriminating test. Among the 13 priority clusters, 3 exhibit a highly significant advantage on near-vertex samples (Wilcoxon $p < 10^{-14}$) and 4 on simplex-interior samples. Together 5 distinct real clusters pass at least one split, while no null cluster passes either. One cluster, 768_596, additionally achieves the highest causal steering score in the dataset. This is the only case where passive prediction and active intervention converge. We present these findings as preliminary evidence that genuine belief-like geometry exists in Gemma-2-9B's representation space, and identify the structured evaluation that would be required to confirm this interpretation.