Reasoning Models Struggle to Control their Chains of Thought

📄 arXiv: 2603.05706v1 📥 PDF

作者: Chen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak

分类: cs.AI

发布日期: 2026-03-05


💡 一句话要点

提出CoT-Control评估套件,评估推理模型对思维链(CoT)的可控性,发现其可控性远低于输出可控性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 可控性 大型语言模型 CoT监控 评估套件

📋 核心要点

  1. 现有思维链(CoT)监控依赖于模型输出的中间推理步骤,但模型可能控制CoT内容,导致监控失效。
  2. 论文提出CoT-Control评估套件,通过约束CoT生成内容来评估模型对CoT的可控程度,揭示潜在风险。
  3. 实验表明,模型对CoT的可控性远低于对最终输出的可控性,但模型规模、训练方式等因素会影响CoT可控性。

📝 摘要(中文)

思维链(CoT)监控是检测模型不良行为和理解模型动机的一种有前景的工具。然而,如果模型能够控制其CoT中的表达,这可能会削弱CoT的可监控性。为了衡量这种不良能力——CoT可控性,我们引入了CoT-Control评估套件,其中包括需要模型在遵循CoT指令的同时解决问题的任务,例如,在不使用“染色体”一词的情况下推理遗传学问题。我们表明,推理模型具有明显低于输出可控性的CoT可控性;例如,Claude Sonnet 4.5只能控制其CoT的2.7%,但在控制其最终输出时则为61.9%。我们还发现,较大的模型具有较高的CoT可控性,而更多的RL训练、测试时计算和增加的问题难度会降低CoT可控性。CoT可控性失败甚至延伸到模型被激励(而不是直接要求)逃避CoT监控的情况,尽管模型在被告知正在受到监控时表现出略高的可控性。类似地,通过对抗性优化提示来诱导可控性并不能有意义地提高可控性。我们的结果让我们谨慎地乐观地认为,CoT可控性目前不太可能是CoT可监控性的一种失效模式。然而,低可控性背后的机制尚不清楚。鉴于其对于维持CoT可监控性的重要性,我们建议前沿实验室在未来的模型中跟踪CoT可控性。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在生成思维链(CoT)推理过程时,对其CoT内容的可控性。现有方法假设CoT是透明且可信的,但如果模型可以操纵CoT,则CoT监控的有效性会受到威胁。因此,需要一种方法来量化模型控制CoT内容的能力。

核心思路:论文的核心思路是设计一系列任务,要求模型在解决问题的同时,遵循对CoT内容的约束条件。通过观察模型是否能够成功解决问题并满足约束条件,来评估其CoT可控性。如果模型能够有意规避约束,则表明其CoT可控性较高,可能对CoT监控构成威胁。

技术框架:论文提出了CoT-Control评估套件,包含多种任务,每项任务都要求模型在生成CoT时遵守特定的约束。例如,某些任务要求模型在推理过程中避免使用特定词汇。评估流程包括:1) 给定问题和CoT约束;2) 模型生成CoT推理过程;3) 检查生成的CoT是否满足约束条件;4) 评估模型是否成功解决问题。

关键创新:论文的关键创新在于提出了CoT可控性的概念,并设计了相应的评估方法。与以往关注模型输出结果的研究不同,该研究深入考察了模型生成CoT推理过程的能力,并评估了模型对CoT内容的控制程度。这为评估和改进CoT监控的可靠性提供了新的视角。

关键设计:CoT-Control评估套件包含多种类型的约束,例如词汇约束(禁止使用特定词汇)、逻辑约束(要求CoT遵循特定逻辑规则)等。论文还研究了不同因素对CoT可控性的影响,例如模型规模、训练方式(RL训练)、测试时计算量等。此外,论文还考察了在激励模型规避CoT监控的情况下,CoT可控性的变化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,推理模型对CoT的可控性显著低于对最终输出的可控性。例如,Claude Sonnet 4.5只能控制其CoT的2.7%,但可以控制其最终输出的61.9%。此外,实验还发现,模型规模越大,CoT可控性越高;而更多的RL训练、测试时计算和增加的问题难度会降低CoT可控性。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的安全性,特别是在需要依赖CoT进行监控的场景中。例如,可以利用CoT-Control评估套件来识别具有较高CoT可控性的模型,并采取相应措施来降低其潜在风险。此外,该研究还可以指导模型训练,使其在保证推理能力的同时,降低对CoT内容的控制能力,从而提高CoT监控的可靠性。

📄 摘要(原文)

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.