COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

作者: Kartik Sharma, Rakshit S. Trivedi

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-06

备注: ICLR 2026. Code available at https://github.com/Ksartik/cold-steer

💡 一句话要点

COLD-Steer：通过上下文单步学习动态引导大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活引导 上下文学习 梯度近似 零样本学习

📋 核心要点

现有激活引导方法在样本效率和引导信号提取质量之间存在权衡，限制了其应用。
COLD-Steer通过近似上下文学习的梯度下降效果，在推理时高效引导LLM激活，无需训练。
实验表明，COLD-Steer在显著减少样本数量的同时，实现了与现有方法相当甚至更好的引导效果。

📝 摘要（中文）

激活引导方法能够在不重新训练的情况下，在推理时控制大语言模型的行为。然而，现有方法面临一个根本性的权衡：样本高效的方法无法充分捕捉来自标记示例的引导信号，而能够更好提取这些信号的方法则需要数百甚至数千个示例。我们提出了COLD-Steer，一个无需训练的框架，通过近似于上下文示例梯度下降所产生的表征变化来引导LLM激活。我们的关键见解是，少量示例上的微调效果可以在推理时高效地近似，而无需实际的参数更新。我们通过两种互补的方法形式化这一点：（i）一种单元核近似方法，它直接使用相对于激活的梯度来更新激活，并在示例中进行归一化；（ii）一种有限差分近似，无论示例数量如何，只需要两次前向传递。在各种引导任务和基准测试中的实验表明，与最佳基线相比，COLD-Steer在减少50倍样本的情况下，实现了高达95%的引导效果。COLD-Steer有助于适应不同的视角，而无需大量的演示数据，这通过我们在多元对齐任务上的实验得到了验证。我们的框架为自适应、上下文感知的模型控制开辟了新的可能性，可以通过对学习动态的原则性近似，灵活地解决不同的、损失驱动的人类偏好，而不是专门的训练程序。

🔬 方法详解

问题定义：现有激活引导方法要么需要大量样本才能有效提取引导信号，要么在样本效率较高时，引导效果不佳。这限制了它们在实际应用中的灵活性和可扩展性，尤其是在数据稀缺或需要快速适应新任务的情况下。

核心思路：COLD-Steer的核心思路是，通过模拟在少量上下文示例上进行梯度下降的效果，来引导LLM的激活。它认为，即使没有实际的参数更新，也可以通过调整激活来近似微调后的模型行为。这种方法避免了昂贵的训练过程，并允许在推理时进行灵活的控制。

技术框架：COLD-Steer框架包含两个主要组成部分：单元核近似和有限差分近似。单元核近似直接使用相对于激活的梯度来更新激活，并在示例中进行归一化。有限差分近似则通过两次前向传递来估计梯度，从而避免了显式计算梯度。这两种方法都旨在高效地近似上下文学习的梯度下降效果。

关键创新：COLD-Steer的关键创新在于，它提出了一种无需训练的方法，通过近似学习动态来引导LLM激活。与现有方法相比，COLD-Steer不需要大量的训练数据，并且可以在推理时进行灵活的控制。此外，COLD-Steer通过两种互补的近似方法，提高了引导的效率和准确性。

关键设计：单元核近似的关键设计在于梯度的归一化，这有助于平衡不同示例的影响，并提高引导的稳定性。有限差分近似的关键设计在于使用两次前向传递来估计梯度，这避免了显式计算梯度，并提高了计算效率。具体的参数设置和损失函数取决于具体的任务和数据集，但COLD-Steer框架本身是通用的，可以应用于各种引导任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，COLD-Steer在各种引导任务和基准测试中，与最佳基线相比，在减少50倍样本的情况下，实现了高达95%的引导效果。这表明COLD-Steer在样本效率和引导效果方面都具有显著的优势。此外，COLD-Steer在多元对齐任务上的实验也表明，它可以有效地适应不同的视角，而无需大量的演示数据。

🎯 应用场景

COLD-Steer具有广泛的应用前景，例如个性化对话系统、内容生成、偏见缓解和安全对齐。它可以用于根据用户的偏好或需求，动态地调整LLM的行为，从而提高用户体验和模型的可靠性。此外，COLD-Steer还可以用于探索LLM的内部表征，并理解其学习动态。

📄 摘要（原文）

Activation steering methods enable inference-time control of large language model (LLM) behavior without retraining, but current approaches face a fundamental trade-off: sample-efficient methods suboptimally capture steering signals from labeled examples, while methods that better extract these signals require hundreds to thousands of examples. We introduce COLD-Steer, a training-free framework that steers LLM activations by approximating the representational changes that would result from gradient descent on in-context examples. Our key insight is that the effect of fine-tuning on a small set of examples can be efficiently approximated at inference time without actual parameter updates. We formalize this through two complementary approaches: (i) a unit kernel approximation method that updates the activations directly using gradients with respect to them, normalized across examples, and (ii) a finite-difference approximation requiring only two forward passes regardless of example count. Experiments across a variety of steering tasks and benchmarks demonstrate that COLD-Steer achieves upto 95% steering effectiveness while using 50 times fewer samples compared to the best baseline. COLD-Steer facilitates accommodating diverse perspectives without extensive demonstration data, which we validate through our experiments on pluralistic alignment tasks. Our framework opens new possibilities for adaptive, context-aware model control that can flexibly address varying loss-driven human preferences through principled approximation of learning dynamics rather than specialized training procedures.

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理