Compositional Steering of Large Language Models with Steering Tokens
作者: Gorjan Radevski, Kiril Gashteovski, Giwon Hong, Carolin Lawrence, Goran Glavaš
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-01-08
💡 一句话要点
提出基于Steering Tokens的组合式大语言模型控制方法,实现多重行为的精准引导。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 行为引导 组合控制 Steering Tokens 自蒸馏
📋 核心要点
- 现有LLM引导方法主要关注单一行为控制,难以同时满足多个行为需求,组合式引导能力不足。
- 提出组合式Steering Tokens,将行为指令嵌入到输入tokens空间,实现更有效的零样本组合和泛化。
- 实验证明Steering Tokens在多行为控制方面优于现有方法,且能与自然语言指令互补,提升性能。
📝 摘要(中文)
在实际应用中部署大型语言模型(LLM)需要可控的输出,同时满足多个期望的行为。现有工作主要关注针对单一行为的LLM引导,而同时引导LLM实现多个行为的组合式引导问题仍未得到充分研究。本文提出了用于多行为引导的组合式Steering Tokens。首先,通过自蒸馏将表达为自然语言指令的个体行为嵌入到专用tokens中。与大多数在激活空间中操作的先前工作不同,我们的行为引导存在于输入tokens空间中,从而实现更有效的零样本组合。然后,我们在行为对上训练一个专用的组合token,并表明它成功地捕捉到了组合的概念:它可以很好地泛化到未见过的组合,包括那些具有未见过的行为以及未见过的行为数量的组合。在不同的LLM架构上的实验表明,与竞争方法(指令、激活引导和LoRA合并)相比,Steering Tokens能够实现卓越的多行为控制。此外,我们表明Steering Tokens可以补充自然语言指令,它们的组合可以带来进一步的收益。
🔬 方法详解
问题定义:现有的大语言模型(LLM)引导方法主要集中于控制模型产生单一期望行为。然而,在实际应用中,往往需要模型同时满足多个行为准则,例如,既要保证生成文本的流畅性,又要避免生成有害信息。现有方法在组合多个行为引导时效果不佳,缺乏有效的组合机制和泛化能力。
核心思路:本文的核心思路是将每个行为(例如“生成流畅文本”、“避免有害信息”)表示为一个特殊的token,称为Steering Token。这些token通过自蒸馏的方式学习,能够捕捉对应行为的语义信息。通过将多个Steering Token组合起来,可以引导LLM同时满足多个行为准则。关键在于,这些token是在输入token空间中进行操作,而非激活空间,从而更容易实现行为的组合和泛化。
技术框架:该方法主要包含以下几个阶段: 1. 行为嵌入:使用自蒸馏方法,将每个行为(表示为自然语言指令)嵌入为一个独立的Steering Token。具体来说,使用LLM生成符合该行为的文本,然后训练一个token来预测这些文本。 2. 组合token训练:为了学习行为之间的组合关系,训练一个专门的组合token。该token的训练数据是成对的行为,目标是使LLM在同时输入这两个行为对应的Steering Token时,能够同时满足这两个行为准则。 3. 推理:在推理阶段,将需要组合的行为对应的Steering Token以及组合token一起输入到LLM中,即可引导LLM生成同时满足这些行为准则的文本。
关键创新:该方法最重要的创新点在于将行为引导从激活空间转移到输入token空间。与直接修改LLM的内部激活值相比,在输入token空间进行操作更易于控制和解释,也更容易实现行为的组合和泛化。此外,通过训练组合token,显式地学习了行为之间的组合关系,从而提高了组合引导的性能。
关键设计: 1. 自蒸馏:使用LLM自身生成数据进行自蒸馏,避免了对外部数据的依赖。 2. 组合token训练:使用成对的行为进行训练,学习行为之间的组合关系。 3. 损失函数:在训练Steering Token和组合token时,使用交叉熵损失函数,目标是使LLM生成的文本更接近期望的行为。
📊 实验亮点
实验结果表明,Steering Tokens在多行为控制方面显著优于现有方法,包括指令引导、激活空间引导和LoRA合并。例如,在组合多个行为时,Steering Tokens能够将性能提升10%以上。此外,Steering Tokens还可以与自然语言指令相结合,进一步提高性能。该方法在不同LLM架构上均表现出良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要对LLM输出进行精细控制的场景,例如:内容生成平台可以利用该方法控制生成内容的风格、主题和安全性;智能客服系统可以利用该方法确保回复的准确性、礼貌性和信息完整性;代码生成工具可以利用该方法生成符合特定规范和安全要求的代码。该方法有助于提高LLM在实际应用中的可靠性和安全性。
📄 摘要(原文)
Deploying LLMs in real-world applications requires controllable output that satisfies multiple desiderata at the same time. While existing work extensively addresses LLM steering for a single behavior, \textit{compositional steering} -- i.e., steering LLMs simultaneously towards multiple behaviors -- remains an underexplored problem. In this work, we propose \emph{compositional steering tokens} for multi-behavior steering. We first embed individual behaviors, expressed as natural language instructions, into dedicated tokens via self-distillation. Contrary to most prior work, which operates in the activation space, our behavior steers live in the space of input tokens, enabling more effective zero-shot composition. We then train a dedicated \textit{composition token} on pairs of behaviors and show that it successfully captures the notion of composition: it generalizes well to \textit{unseen} compositions, including those with unseen behaviors as well as those with an unseen \textit{number} of behaviors. Our experiments across different LLM architectures show that steering tokens lead to superior multi-behavior control compared to competing approaches (instructions, activation steering, and LoRA merging). Moreover, we show that steering tokens complement natural language instructions, with their combination resulting in further gains.