Step-Level Sparse Autoencoder for Reasoning Process Interpretation
作者: Xuan Yang, Jiayu Liu, Yuhang Lai, Hao Xu, Zhenya Huang, Ning Miao
分类: cs.LG
发布日期: 2026-03-03
🔗 代码/项目: GITHUB
💡 一句话要点
提出步级别稀疏自编码器(SSAE)用于分析LLM推理过程,揭示其内部逻辑。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 稀疏自编码器 思维链 推理过程分析
📋 核心要点
- 现有token级别稀疏自编码器无法有效捕获LLM推理过程中关键的步级别信息,如推理方向和语义转换。
- 提出步级别稀疏自编码器(SSAE),通过上下文条件下的稀疏性控制,在步重建中形成信息瓶颈,分离增量信息。
- 实验表明,SSAE提取的特征能够有效预测LLM推理步骤的正确性和逻辑性,揭示LLM的自我验证能力。
📝 摘要(中文)
大型语言模型(LLM)通过思维链(CoT)推理展现了强大的复杂推理能力。然而,它们的推理模式过于复杂,难以分析。稀疏自编码器(SAE)已成为一种强大的可解释性工具,但现有方法主要在token级别操作,在捕获更关键的步级别信息(如推理方向和语义转换)时存在粒度不匹配。本文提出步级别稀疏自编码器(SSAE),作为一种分析工具,将LLM推理步骤的不同方面分解为稀疏特征。具体而言,通过精确控制步特征的稀疏性(以其上下文为条件),在步重建中形成信息瓶颈,从而将增量信息与背景信息分离,并将其分解为几个稀疏激活的维度。在多个基础模型和推理任务上的实验表明了提取特征的有效性。通过线性探测,可以轻松预测表面级别的信息(如生成长度和首个token分布),以及更复杂的属性(如步骤的正确性和逻辑性)。这些观察结果表明,LLM在生成过程中至少已经部分了解这些属性,这为LLM的自我验证能力奠定了基础。代码已开源。
🔬 方法详解
问题定义:现有方法主要在token级别进行稀疏自编码,无法有效捕捉LLM推理过程中步骤之间的语义转换和推理方向等关键信息。这导致对LLM推理过程的理解不够深入,难以分析其内在逻辑和潜在的自我验证能力。
核心思路:论文的核心思路是将稀疏自编码器的应用粒度提升到推理步骤级别,通过分析每个步骤的特征表示来理解LLM的推理过程。通过在步骤重建过程中引入信息瓶颈,迫使模型学习到步骤中最重要的增量信息,从而将背景信息和关键推理信息分离。
技术框架:SSAE的整体框架包括以下几个主要模块:1) LLM生成推理步骤;2) 步级别特征提取,将每个步骤编码为向量表示;3) 稀疏自编码器,包含编码器和解码器,用于学习步骤特征的稀疏表示;4) 上下文条件稀疏性控制,根据上下文动态调整稀疏度;5) 线性探测,用于评估学习到的稀疏特征的质量。
关键创新:SSAE的关键创新在于将稀疏自编码器的应用粒度从token级别提升到步骤级别,并引入了上下文条件稀疏性控制。这种设计使得SSAE能够更好地捕捉LLM推理过程中步骤之间的关系和推理方向,从而更深入地理解LLM的推理过程。
关键设计:SSAE的关键设计包括:1) 步级别特征提取器的选择,可以使用预训练的语言模型或自定义的神经网络;2) 稀疏自编码器的结构,包括编码器和解码器的层数和激活函数;3) 稀疏性控制的策略,可以使用L1正则化或阈值截断等方法;4) 损失函数的设计,包括重建损失和稀疏性损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SSAE能够有效提取LLM推理步骤中的关键特征,并通过线性探测准确预测步骤的正确性和逻辑性。例如,SSAE提取的特征可以用于预测生成长度和首个token分布等表面信息,以及更复杂的属性,如步骤的正确性和逻辑性。这些结果表明LLM在生成过程中已经具备一定的自我认知能力。
🎯 应用场景
该研究成果可应用于LLM推理过程的可解释性分析,帮助研究人员理解LLM的推理逻辑和潜在的偏差。此外,该方法还可以用于改进LLM的自我验证能力,提高其推理的可靠性和准确性。未来,该技术有望应用于智能问答、决策支持等领域。
📄 摘要(原文)
Large Language Models (LLMs) have achieved strong complex reasoning capabilities through Chain-of-Thought (CoT) reasoning. However, their reasoning patterns remain too complicated to analyze. While Sparse Autoencoders (SAEs) have emerged as a powerful tool for interpretability, existing approaches predominantly operate at the token level, creating a granularity mismatch when capturing more critical step-level information, such as reasoning direction and semantic transitions. In this work, we propose step-level sparse autoencoder (SSAE), which serves as an analytical tool to disentangle different aspects of LLMs' reasoning steps into sparse features. Specifically, by precisely controlling the sparsity of a step feature conditioned on its context, we form an information bottleneck in step reconstruction, which splits incremental information from background information and disentangles it into several sparsely activated dimensions. Experiments on multiple base models and reasoning tasks show the effectiveness of the extracted features. By linear probing, we can easily predict surface-level information, such as generation length and first token distribution, as well as more complicated properties, such as the correctness and logicality of the step. These observations indicate that LLMs should already at least partly know about these properties during generation, which provides the foundation for the self-verification ability of LLMs. The code is available at https://github.com/Miaow-Lab/SSAE