COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

📄 arXiv: 2603.06495v1 📥 PDF

作者: Kartik Sharma, Rakshit S. Trivedi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-06

备注: ICLR 2026. Code available at https://github.com/Ksartik/cold-steer


💡 一句话要点

COLD-Steer:通过上下文单步学习动态引导大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活引导 上下文学习 梯度近似 零样本学习

📋 核心要点

  1. 现有激活引导方法在样本效率和引导信号提取质量之间存在权衡,限制了其应用。
  2. COLD-Steer通过近似上下文学习的梯度下降效果,在推理时高效引导LLM激活,无需训练。
  3. 实验表明,COLD-Steer在显著减少样本数量的同时,实现了与现有方法相当甚至更好的引导效果。

📝 摘要(中文)

激活引导方法能够在不重新训练的情况下,在推理时控制大语言模型的行为。然而,现有方法面临一个根本性的权衡:样本高效的方法无法充分捕捉来自标记示例的引导信号,而能够更好提取这些信号的方法则需要数百甚至数千个示例。我们提出了COLD-Steer,一个无需训练的框架,通过近似于上下文示例梯度下降所产生的表征变化来引导LLM激活。我们的关键见解是,少量示例上的微调效果可以在推理时高效地近似,而无需实际的参数更新。我们通过两种互补的方法形式化这一点:(i)一种单元核近似方法,它直接使用相对于激活的梯度来更新激活,并在示例中进行归一化;(ii)一种有限差分近似,无论示例数量如何,只需要两次前向传递。在各种引导任务和基准测试中的实验表明,与最佳基线相比,COLD-Steer在减少50倍样本的情况下,实现了高达95%的引导效果。COLD-Steer有助于适应不同的视角,而无需大量的演示数据,这通过我们在多元对齐任务上的实验得到了验证。我们的框架为自适应、上下文感知的模型控制开辟了新的可能性,可以通过对学习动态的原则性近似,灵活地解决不同的、损失驱动的人类偏好,而不是专门的训练程序。

🔬 方法详解

问题定义:现有激活引导方法要么需要大量样本才能有效提取引导信号,要么在样本效率较高时,引导效果不佳。这限制了它们在实际应用中的灵活性和可扩展性,尤其是在数据稀缺或需要快速适应新任务的情况下。

核心思路:COLD-Steer的核心思路是,通过模拟在少量上下文示例上进行梯度下降的效果,来引导LLM的激活。它认为,即使没有实际的参数更新,也可以通过调整激活来近似微调后的模型行为。这种方法避免了昂贵的训练过程,并允许在推理时进行灵活的控制。

技术框架:COLD-Steer框架包含两个主要组成部分:单元核近似和有限差分近似。单元核近似直接使用相对于激活的梯度来更新激活,并在示例中进行归一化。有限差分近似则通过两次前向传递来估计梯度,从而避免了显式计算梯度。这两种方法都旨在高效地近似上下文学习的梯度下降效果。

关键创新:COLD-Steer的关键创新在于,它提出了一种无需训练的方法,通过近似学习动态来引导LLM激活。与现有方法相比,COLD-Steer不需要大量的训练数据,并且可以在推理时进行灵活的控制。此外,COLD-Steer通过两种互补的近似方法,提高了引导的效率和准确性。

关键设计:单元核近似的关键设计在于梯度的归一化,这有助于平衡不同示例的影响,并提高引导的稳定性。有限差分近似的关键设计在于使用两次前向传递来估计梯度,这避免了显式计算梯度,并提高了计算效率。具体的参数设置和损失函数取决于具体的任务和数据集,但COLD-Steer框架本身是通用的,可以应用于各种引导任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COLD-Steer在各种引导任务和基准测试中,与最佳基线相比,在减少50倍样本的情况下,实现了高达95%的引导效果。这表明COLD-Steer在样本效率和引导效果方面都具有显著的优势。此外,COLD-Steer在多元对齐任务上的实验也表明,它可以有效地适应不同的视角,而无需大量的演示数据。

🎯 应用场景

COLD-Steer具有广泛的应用前景,例如个性化对话系统、内容生成、偏见缓解和安全对齐。它可以用于根据用户的偏好或需求,动态地调整LLM的行为,从而提高用户体验和模型的可靠性。此外,COLD-Steer还可以用于探索LLM的内部表征,并理解其学习动态。

📄 摘要(原文)

Activation steering methods enable inference-time control of large language model (LLM) behavior without retraining, but current approaches face a fundamental trade-off: sample-efficient methods suboptimally capture steering signals from labeled examples, while methods that better extract these signals require hundreds to thousands of examples. We introduce COLD-Steer, a training-free framework that steers LLM activations by approximating the representational changes that would result from gradient descent on in-context examples. Our key insight is that the effect of fine-tuning on a small set of examples can be efficiently approximated at inference time without actual parameter updates. We formalize this through two complementary approaches: (i) a unit kernel approximation method that updates the activations directly using gradients with respect to them, normalized across examples, and (ii) a finite-difference approximation requiring only two forward passes regardless of example count. Experiments across a variety of steering tasks and benchmarks demonstrate that COLD-Steer achieves upto 95% steering effectiveness while using 50 times fewer samples compared to the best baseline. COLD-Steer facilitates accommodating diverse perspectives without extensive demonstration data, which we validate through our experiments on pluralistic alignment tasks. Our framework opens new possibilities for adaptive, context-aware model control that can flexibly address varying loss-driven human preferences through principled approximation of learning dynamics rather than specialized training procedures.