Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

作者: Kyle Cox, Darius Kianersi, Adrià Garriga-Alonso

分类: cs.AI

发布日期: 2026-03-02

💡 一句话要点

揭示CoT推理前决策：通过预CoT探针和激活操控发现LLM在生成CoT前已确定答案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 大型语言模型 可解释性 线性探针 激活操控

📋 核心要点

大型语言模型中的思维链（CoT）推理被认为是可解释性的工具，但其忠实性受到质疑。
该研究通过线性探针和激活操控，揭示模型在生成CoT之前可能已经确定了答案。
实验表明，预CoT激活可以高精度预测答案，且操控激活能显著改变模型输出，揭示CoT推理的潜在问题。

📝 摘要（中文）

随着思维链（CoT）成为扩展大型语言模型（LLM）推理能力的核心，它也逐渐成为一种有前景的可解释性工具，暗示着通过口头推理来理解模型决策的机会。然而，CoT对可解释性的效用取决于其忠实性——即模型陈述的推理是否反映了底层的决策过程。我们提供了机制性的证据，表明指令调优模型通常在生成CoT之前就确定了答案。通过在CoT之前的最后一个token的残差流激活上训练线性探针，我们可以在大多数任务上以0.9的AUC预测模型的最终答案。我们发现这些方向不仅具有预测性，而且具有因果性：沿着探针方向操控激活可以在超过50%的情况下翻转模型答案，显著超过正交基线。当操控导致不正确的答案时，我们观察到两种不同的失败模式：非蕴含（陈述正确的 premise 但得出不支持的结论）和捏造（捏造虚假的 premise）。虽然当模型具有正确的预CoT信念时，事后推理可能在工具上是有用的，但这些失败模式表明，当从错误的信念进行推理时，它可能导致不良行为。

🔬 方法详解

问题定义：现有研究依赖于思维链（CoT）来理解大型语言模型的推理过程，但CoT是否真实反映了模型的决策过程尚不明确。现有方法难以确定模型是在生成CoT之前还是之后做出决策，这阻碍了对模型内部机制的深入理解。该论文旨在探究模型在生成CoT之前是否已经确定了答案，并分析CoT推理的真实作用。

核心思路：该论文的核心思路是通过在CoT生成之前的模型内部状态（残差流激活）上训练线性探针，来预测模型的最终答案。如果能够仅通过预CoT的激活状态高精度地预测答案，则表明模型可能在生成CoT之前就已经做出了决策。此外，通过操控这些激活状态，可以验证其对模型输出的因果影响，从而进一步揭示CoT推理的真实作用。

技术框架：该研究主要包含以下几个阶段：1) 数据收集：收集模型在执行特定任务时生成的CoT数据，包括输入、CoT推理过程和最终答案。2) 激活提取：提取CoT生成之前的最后一个token的残差流激活。3) 探针训练：在提取的激活上训练线性探针，用于预测模型的最终答案。4) 激活操控：通过沿着探针方向操控激活，观察模型输出的变化。5) 错误分析：分析操控激活导致错误答案时的失败模式，包括非蕴含和捏造。

关键创新：该论文最重要的技术创新点在于，它提供了一种机制性的方法来研究CoT推理的真实作用。通过预CoT探针和激活操控，揭示了模型可能在生成CoT之前就已经确定了答案，挑战了CoT作为可解释性工具的可靠性。此外，该研究还识别了两种CoT推理的失败模式：非蕴含和捏造，为理解CoT推理的局限性提供了新的视角。

关键设计：该研究的关键设计包括：1) 使用线性探针来预测答案，线性探针的简单性有助于解释其预测能力。2) 在CoT生成之前的最后一个token的残差流激活上进行分析，这代表了模型在生成CoT之前的内部状态。3) 通过操控激活来验证其因果影响，确保观察到的预测能力不是虚假的。4) 对错误答案进行详细的错误分析，识别CoT推理的失败模式。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，在大多数任务上，通过预CoT激活训练的线性探针可以以0.9的AUC预测模型的最终答案。激活操控实验表明，沿着探针方向操控激活可以在超过50%的情况下翻转模型答案，显著超过正交基线。这些结果表明，模型在生成CoT之前可能已经确定了答案，CoT推理可能并非总是反映模型的真实决策过程。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可信度和可靠性。通过理解模型何时以及如何使用CoT推理，可以开发更有效的干预策略，以纠正模型的错误信念，并防止其生成不合理的推理过程。此外，该研究还可以帮助开发更具解释性的模型，从而提高用户对模型决策的信任。

📄 摘要（原文）

As chain-of-thought (CoT) has become central to scaling reasoning capabilities in large language models (LLMs), it has also emerged as a promising tool for interpretability, suggesting the opportunity to understand model decisions through verbalized reasoning. However, the utility of CoT toward interpretability depends upon its faithfulness -- whether the model's stated reasoning reflects the underlying decision process. We provide mechanistic evidence that instruction-tuned models often determine their answer before generating CoT. Training linear probes on residual stream activations at the last token before CoT, we can predict the model's final answer with 0.9 AUC on most tasks. We find that these directions are not only predictive, but also causal: steering activations along the probe direction flips model answers in over 50% of cases, significantly exceeding orthogonal baselines. When steering induces incorrect answers, we observe two distinct failure modes: non-entailment (stating correct premises but drawing unsupported conclusions) and confabulation (fabricating false premises). While post-hoc reasoning may be instrumentally useful when the model has a correct pre-CoT belief, these failure modes suggest it can result in undesirable behaviors when reasoning from a false belief.