Reliable Control-Point Selection for Steering Reasoning in Large Language Models
作者: Haomin Zhuang, Hojun Yoo, Xiaonan Luo, Kehan Guo, Xiangliang Zhang
分类: cs.CL
发布日期: 2026-04-02
🔗 代码/项目: GITHUB
💡 一句话要点
提出稳定性过滤方法,提升大语言模型中控制点选择的可靠性,从而改善推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 转向向量 推理控制 稳定性过滤 行为边界 内容子空间 MATH-500
📋 核心要点
- 现有方法在大型语言模型中通过关键词匹配检测推理行为边界,但忽略了这些边界的稳定性问题,导致转向信号被稀释。
- 论文提出一种基于概率模型的稳定性过滤方法,仅保留模型一致重现目标行为的边界,从而提高转向向量的质量。
- 实验结果表明,该方法在MATH-500数据集上取得了显著的性能提升,并且转向向量可以跨模型迁移。
📝 摘要(中文)
转向向量提供了一种免训练机制,用于控制大型语言模型中的推理行为,但构建有效的向量需要在模型的隐藏状态中识别真正的行为信号。对于可以通过提示切换的行为,这很简单。然而,许多推理行为(如自我反思)是自发出现的,并且难以通过提示进行控制。目前的方法通过在思维链追踪中进行关键词匹配来检测这些行为,隐含地假设每个检测到的边界都编码了一个真正的行为信号。我们表明,这个假设绝大多数是错误的:在541个关键词检测到的边界中,93.3%在行为上不稳定,无法在从相同前缀重新生成时重现检测到的行为。我们开发了一个概率模型,将内在推理行为形式化为具有上下文相关触发概率的随机事件,并表明不稳定的边界会稀释转向信号。在该分析的指导下,我们提出了稳定性过滤,该方法仅保留模型一致地重现目标行为的边界。结合去除残余问题特定噪声的内容子空间投影,我们的方法在MATH-500上实现了0.784的准确率(比最强的基线高+5.0)。由此产生的转向向量可以在同一架构系列的模型之间进行迁移,而无需重新提取,从而提高了Nemotron-Research-Reasoning-1.5B(+5.0)和DeepScaleR-1.5B-Preview(+6.0)的性能。
🔬 方法详解
问题定义:现有方法在利用转向向量控制大型语言模型的推理行为时,依赖于关键词匹配来识别行为边界。然而,这种方法假设所有检测到的边界都代表了稳定的、可重复的推理行为,这在实际中并不成立。大量不稳定的边界会降低转向向量的有效性,阻碍模型推理能力的提升。
核心思路:论文的核心思路是识别并过滤掉不稳定的行为边界,从而提高转向向量的质量。通过将内在推理行为建模为具有上下文相关触发概率的随机事件,论文能够量化边界的稳定性,并选择性地保留那些能够稳定重现目标行为的边界。
技术框架:该方法主要包含两个阶段:首先,使用关键词匹配等方法初步检测行为边界;然后,应用稳定性过滤方法,评估每个边界的稳定性,并仅保留稳定的边界。为了进一步提高转向向量的质量,论文还结合了内容子空间投影,以去除残余的问题特定噪声。
关键创新:该方法最重要的创新点在于提出了稳定性过滤的概念,并将其应用于转向向量的构建过程中。通过显式地考虑行为边界的稳定性,该方法能够有效地提高转向向量的质量,从而提升模型推理能力。
关键设计:稳定性过滤的关键在于如何评估行为边界的稳定性。论文采用了一种基于概率模型的评估方法,通过多次从相同前缀重新生成,观察目标行为是否能够稳定重现,从而量化边界的稳定性。此外,内容子空间投影的具体实现方式(例如,使用PCA降维)以及关键词匹配的具体规则也是重要的设计细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MATH-500数据集上实现了0.784的准确率,比最强的基线高+5.0%。此外,生成的转向向量可以跨模型迁移,在Nemotron-Research-Reasoning-1.5B和DeepScaleR-1.5B-Preview模型上分别实现了+5.0和+6.0的性能提升,验证了该方法的有效性和泛化能力。
🎯 应用场景
该研究成果可应用于提升大型语言模型在各种推理任务中的性能,例如数学问题求解、逻辑推理和常识推理。通过提高转向向量的质量,可以更有效地控制模型的推理过程,使其能够更准确、更可靠地完成复杂任务。此外,该方法还可以用于分析和理解模型的内部推理机制,为开发更强大的AI系统提供 insights。
📄 摘要(原文)
Steering vectors offer a training-free mechanism for controlling reasoning behaviors in large language models, but constructing effective vectors requires identifying genuine behavioral signals in the model's hidden states. For behaviors that can be toggled via prompts, this is straightforward. However, many reasoning behaviors -- such as self-reflection -- emerge spontaneously and resist prompt-level control. Current methods detect these behaviors through keyword matching in chain-of-thought traces, implicitly assuming that every detected boundary encodes a genuine behavioral signal. We show that this assumption is overwhelmingly wrong: across 541 keyword-detected boundaries, 93.3\% are behaviorally unstable, failing to reproduce the detected behavior under re-generation from the same prefix. We develop a probabilistic model that formalizes intrinsic reasoning behaviors as stochastic events with context-dependent trigger probabilities, and show that unstable boundaries dilute the steering signal. Guided by this analysis, we propose stability filtering, which retains only boundaries where the model consistently reproduces the target behavior. Combined with a content-subspace projection that removes residual question-specific noise, our method achieves 0.784 accuracy on MATH-500 (+5.0 over the strongest baseline). The resulting steering vectors transfer across models in the same architecture family without re-extraction, improving Nemotron-Research-Reasoning-1.5B (+5.0) and DeepScaleR-1.5B-Preview (+6.0). Code is available at https://github.com/zhmzm/stability-steering.