Therefore I am. I Think

📄 arXiv: 2604.01202v1 📥 PDF

作者: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani

分类: cs.AI

发布日期: 2026-04-01


💡 一句话要点

揭示大语言模型推理决策机制:决策先于思考,早期编码影响思维链

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 决策 思维链 线性探针 激活steering

📋 核心要点

  1. 现有研究缺乏对大语言模型决策过程的深入理解,特别是决策与推理之间的时序关系。
  2. 该研究通过线性探针和激活steering技术,揭示了决策在大语言模型推理过程中的早期编码现象。
  3. 实验结果表明,早期决策能够显著影响后续的思维链生成,甚至可以导致行为的翻转。

📝 摘要(中文)

本文探讨了一个问题:当大型语言推理模型做出选择时,是先思考再决定,还是先决定再思考?我们提供的证据表明,可检测到的、早期编码的决策会影响推理模型中的思维链。具体而言,我们展示了一个简单的线性探针可以非常高的置信度从预生成激活中解码工具调用决策,在某些情况下,甚至在生成单个推理token之前。激活steering从因果上支持了这一点:扰动决策方向会导致过度推敲,并在许多示例中翻转行为(根据模型和基准测试,在7%到79%之间)。我们还通过行为分析表明,当steering改变决策时,思维链过程通常会合理化这种翻转,而不是抵制它。总之,这些结果表明,推理模型可以在开始以文本形式进行推理论证之前,就对行动选择进行编码。

🔬 方法详解

问题定义:现有的大语言模型在进行推理时,其决策过程与思维链生成之间的关系尚不明确。一个关键问题是,模型是先进行充分的思考和推理,然后再做出决策,还是在推理之前就已经预先确定了决策方向?理解这一问题对于提升模型的可控性和可解释性至关重要。

核心思路:本文的核心思路是通过分析大语言模型在生成推理文本之前的内部激活状态,来探究决策是否在早期就已经被编码。如果决策能够在早期被准确预测,则表明模型可能存在“先决定,后思考”的现象。此外,通过干预模型的激活状态,观察决策和思维链的变化,可以进一步验证决策对推理过程的因果影响。

技术框架:该研究主要包含以下几个阶段:1) 数据收集:收集大语言模型在执行推理任务时产生的激活数据。2) 线性探针训练:使用收集到的激活数据训练一个线性分类器(线性探针),用于预测模型的决策。3) 激活steering:通过修改模型的激活状态,人为地改变模型的决策方向。4) 行为分析:分析在激活steering后,模型的思维链和最终决策的变化。

关键创新:该研究最重要的创新点在于揭示了大语言模型中决策的早期编码现象。通过线性探针和激活steering技术,证明了决策可以在模型生成推理文本之前就被预测和操控,这挑战了传统的“先思考,后决定”的认知模型。

关键设计:在线性探针的训练中,使用了逻辑回归模型作为分类器,并采用交叉验证来评估模型的泛化能力。在激活steering中,通过计算目标决策方向的梯度,并将其添加到模型的激活状态中,从而实现对决策的干预。实验中,使用了多个大语言模型和不同的推理基准测试,以验证研究结果的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,简单的线性探针可以从预生成激活中以非常高的置信度解码工具调用决策,在某些情况下,甚至在生成单个推理token之前。激活steering实验表明,扰动决策方向会导致7%-79%的示例发生行为翻转,并且思维链过程通常会合理化这种翻转。

🎯 应用场景

该研究成果可应用于提升大语言模型的可控性和可解释性。通过理解决策的早期编码机制,可以设计更有效的干预策略,引导模型做出更合理的决策。此外,该研究还可以为开发更高效的推理算法提供新的思路,例如,通过预先确定决策方向,减少不必要的计算开销。

📄 摘要(原文)

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.