Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought
作者: Siddharth Boppana, Annabel Ma, Max Loeffler, Raphael Sarfati, Eric Bigelow, Atticus Geiger, Owen Lewis, Jack Merullo
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-03-05
💡 一句话要点
揭示推理模型中的表演性CoT:通过激活探测解耦模型信念与思维链
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链推理 激活探测 模型信念 表演性推理 提前退出 自适应计算 大型语言模型
📋 核心要点
- 现有CoT推理模型可能存在“表演性推理”,即输出的思维链与模型的真实信念不一致,影响模型的可信度。
- 通过激活探测等技术,解耦模型在CoT过程中产生的信念与最终输出,从而区分真实推理和表演性推理。
- 实验表明,激活探测可以有效检测表演性推理,并指导模型提前退出,在保证准确率的同时显著减少计算量。
📝 摘要(中文)
本文揭示了推理模型中存在的表演性思维链(CoT)现象,即模型对其最终答案表现出强烈信心,但持续生成token而不透露其内部信念。通过对两个大型模型(DeepSeek-R1 671B和GPT-OSS 120B)进行激活探测、提前强制回答和CoT监控分析,发现任务难度会影响模型行为:对于简单的基于记忆的MMLU问题,模型的最终答案可以从CoT中更早的激活中解码出来,而监控器则无法做到。这与困难的多跳GPQA-Diamond问题中的真实推理形成对比。尽管如此,拐点(例如,回溯,“顿悟”时刻)几乎只发生在探测显示信念发生巨大变化的响应中,表明这些行为跟踪的是真实的uncertainty,而不是学习到的“推理剧场”。最后,在保持相似准确率的情况下,探针引导的提前退出在MMLU上减少了高达80%的token,在GPQA-Diamond上减少了30%,这使得注意力探测成为检测表演性推理和实现自适应计算的有效工具。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在进行思维链(CoT)推理时,可能存在的“表演性推理”问题。现有方法难以区分模型真实的内部信念和为了生成看似合理的推理过程而产生的token序列,这使得我们难以信任模型的推理结果,并可能导致资源浪费。
核心思路:论文的核心思路是通过激活探测技术,在模型生成CoT的过程中,实时监测模型的内部状态(即信念),并将其与模型的最终输出进行对比。如果模型的最终答案可以从CoT早期阶段的激活中解码出来,而模型仍在继续生成token,则表明模型可能存在表演性推理。
技术框架:论文的技术框架主要包括三个部分:1) 激活探测:使用线性探针从模型的激活中预测模型的最终答案;2) 提前强制回答:在CoT的不同阶段强制模型给出答案,观察其准确率变化;3) CoT监控:使用另一个模型来监控CoT的合理性。通过对比这三种方法的结果,可以判断模型是否存在表演性推理。
关键创新:论文最重要的创新点在于提出了使用激活探测来检测表演性推理的方法。与传统的CoT监控方法相比,激活探测可以直接反映模型的内部信念,而无需依赖外部知识或规则。此外,论文还提出了探针引导的提前退出策略,可以在保证准确率的同时显著减少计算量。
关键设计:论文使用了线性探针作为激活探测器,并使用交叉熵损失函数来训练探针。对于提前强制回答,论文在CoT的不同阶段(例如,25%、50%、75%)强制模型给出答案。对于CoT监控,论文使用了另一个预训练语言模型来评估CoT的合理性。论文在两个大型模型(DeepSeek-R1 671B和GPT-OSS 120B)上进行了实验,并使用了MMLU和GPQA-Diamond两个数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,对于简单的MMLU问题,模型的最终答案可以从CoT早期阶段的激活中解码出来,而监控器则无法做到。探针引导的提前退出策略在MMLU上减少了高达80%的token,在GPQA-Diamond上减少了30%,同时保持了相似的准确率。这些结果表明,激活探测是检测表演性推理和实现自适应计算的有效工具。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可信度和效率。通过检测和避免表演性推理,可以使模型更加诚实地表达其内部信念,从而提高用户对模型的信任度。此外,探针引导的提前退出策略可以显著减少计算量,降低模型的使用成本,并使其更适用于资源受限的场景。
📄 摘要(原文)
We provide evidence of performative chain-of-thought (CoT) in reasoning models, where a model becomes strongly confident in its final answer, but continues generating tokens without revealing its internal belief. Our analysis compares activation probing, early forced answering, and a CoT monitor across two large models (DeepSeek-R1 671B & GPT-OSS 120B) and find task difficulty-specific differences: The model's final answer is decodable from activations far earlier in CoT than a monitor is able to say, especially for easy recall-based MMLU questions. We contrast this with genuine reasoning in difficult multihop GPQA-Diamond questions. Despite this, inflection points (e.g., backtracking, 'aha' moments) occur almost exclusively in responses where probes show large belief shifts, suggesting these behaviors track genuine uncertainty rather than learned "reasoning theater." Finally, probe-guided early exit reduces tokens by up to 80% on MMLU and 30% on GPQA-Diamond with similar accuracy, positioning attention probing as an efficient tool for detecting performative reasoning and enabling adaptive computation.