Steerable but Not Decodable: Function Vectors Operate Beyond the Logit Lens
作者: Mohammed Suhail B Nadaf
分类: cs.LG
发布日期: 2026-04-06
💡 一句话要点
提出功能向量以解决大语言模型的引导与解码问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 功能向量 大语言模型 引导机制 解码问题 上下文学习 自然语言处理 模型评估
📋 核心要点
- 现有方法在引导大型语言模型时,常常面临解码失败的问题,导致引导效果不佳。
- 论文提出功能向量(FVs)作为引导机制,能够在缺乏任务相关信息的情况下仍然实现有效引导。
- 实验结果显示,功能向量引导的准确性普遍高于logit镜头,且在不同模型和任务中表现一致。
📝 摘要(中文)
功能向量(FVs)是从上下文学习示例中提取的均值差异方向,可以通过添加到残差流中来引导大型语言模型的行为。我们假设功能向量引导失败反映了缺乏任务相关信息:在引导时,logit镜头也会失败。经过对120个任务、6个模型的4,032对的全面交叉模板功能向量转移研究,我们发现相反的情况:即使logit镜头无法在任何层解码正确答案,功能向量引导仍然成功。这种引导而非解码的模式是普遍存在的,所有任务和模型中,功能向量引导的准确性都超过了logit镜头,差距最大可达-0.91。只有3个任务-模型实例显示了预期的可解码而不可引导的模式,均在Mistral模型中。功能向量的词汇投影显示,尽管功能向量的引导准确率超过0.90,但仍投影到不连贯的标记分布,表明功能向量编码的是计算指令而非答案方向。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在引导过程中遇到的解码失败问题,现有方法在缺乏任务相关信息时表现不佳。
核心思路:论文提出使用功能向量(FVs)作为引导机制,功能向量通过提取上下文学习示例中的均值差异方向,能够在不依赖解码的情况下有效引导模型行为。
技术框架:整体架构包括功能向量的提取、引导过程的实施以及后续的效果评估。具体流程为:首先从上下文示例中提取功能向量,然后将其添加至模型的残差流中,最后评估模型在不同任务上的表现。
关键创新:最重要的技术创新在于发现功能向量能够在logit镜头无法解码的情况下仍然实现有效引导,这一现象在之前的研究中未被识别。
关键设计:在实验中,功能向量的词汇投影显示出即使在高引导准确率下,仍然投影到不连贯的标记分布,表明其编码的是计算指令而非简单的答案方向。
🖼️ 关键图片
📊 实验亮点
实验结果显示,功能向量引导的准确性在所有任务和模型中均超过logit镜头,差距最大可达-0.91。仅有3个任务-模型实例在Mistral模型中表现出可解码而不可引导的模式,表明功能向量的引导能力具有普遍性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过改进引导机制,能够提升模型在复杂任务中的表现,具有重要的实际价值和未来影响,尤其是在需要快速适应新任务的场景中。
📄 摘要(原文)
Function vectors (FVs) -- mean-difference directions extracted from in-context learning demonstrations -- can steer large language model behavior when added to the residual stream. We hypothesized that FV steering failures reflect an absence of task-relevant information: the logit lens would fail alongside steering. We were wrong. In the most comprehensive cross-template FV transfer study to date - 4,032 pairs across 12 tasks, 6 models from 3 families (Llama-3.1-8B, Gemma-2-9B, Mistral-7B-v0.3; base and instruction-tuned), 8 templates per task - we find the opposite dissociation: FV steering succeeds even when the logit lens cannot decode the correct answer at any layer. This steerability-without-decodability pattern is universal: steering exceeds logit lens accuracy for every task on every model, with gaps as large as -0.91. Only 3 of 72 task-model instances show the predicted decodable-without-steerable pattern, all in Mistral. FV vocabulary projection reveals that FVs achieving over 0.90 steering accuracy still project to incoherent token distributions, indicating FVs encode computational instructions rather than answer directions. FVs intervene optimally at early layers (L2-L8); the logit lens detects correct answers only at late layers (L28-L32). The previously reported negative cosine-transfer correlation (r=-0.572) dissolves at scale: pooled r ranges from -0.199 to +0.126, and cosine adds less than 0.011 in R-squared beyond task identity. Post-steering analysis reveals a model-family divergence: Mistral FVs rewrite intermediate representations; Llama/Gemma FVs produce near-zero changes despite successful steering. Activation patching confirms causal localization: easy tasks achieve perfect recovery at targeted layers; hard tasks show zero recovery everywhere.