Towards Generalizable Implicit In-Context Learning with Attention Routing
作者: Jiaqian Li, Yanshu Li, Ligong Han, Ruixiang Tang, Wenya Wang
分类: cs.CL
发布日期: 2025-09-26
💡 一句话要点
提出In-Context Routing (ICR),通过注意力路由实现通用隐式上下文学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐式上下文学习 注意力机制 路由网络 泛化能力 大型语言模型
📋 核心要点
- 现有隐式ICL方法依赖于任务特定的残差流,缺乏对ICL底层结构机制的利用,泛化能力受限。
- 提出In-Context Routing (ICR),通过学习可重用的结构方向并调节注意力logits,实现通用隐式ICL。
- 在多个数据集和LLM上的实验表明,ICR优于现有方法,并在领域外任务中表现出强大的泛化能力。
📝 摘要(中文)
隐式上下文学习(ICL)作为一种新兴范式,旨在模拟大型语言模型(LLM)表征空间中的ICL行为,以零样本成本获得少样本性能。然而,现有方法主要依赖于将移位向量注入残差流,而这些残差流通常由带标签的演示或特定于任务的对齐构建。这种设计未能充分利用ICL的底层结构机制,并且泛化能力有限。为了解决这个问题,我们提出In-Context Routing (ICR),一种新颖的隐式ICL方法,它在注意力logits级别内化可泛化的ICL模式。它提取ICL期间出现的可重用结构方向,并采用可学习的输入条件路由器来相应地调节注意力logits,从而实现一次训练、多次复用的框架。我们在涵盖不同领域的12个真实世界数据集和多个LLM上评估ICR。结果表明,ICR始终优于需要特定于任务的检索或训练的现有隐式ICL方法,同时对现有方法难以处理的领域外任务表现出强大的泛化能力。这些发现使ICR能够推动ICL的实际价值。
🔬 方法详解
问题定义:现有隐式上下文学习方法依赖于将移位向量注入残差流,这些移位向量通常需要带标签的演示数据或针对特定任务进行对齐。这种做法的痛点在于,它未能充分利用ICL内在的结构性机制,导致模型泛化能力不足,难以适应新的、未见过的任务。
核心思路:ICR的核心思路在于,它不再依赖于任务特定的残差流,而是试图学习一种通用的、可重用的ICL模式。具体来说,它提取在ICL过程中出现的结构方向,并利用这些方向来调节注意力logits。通过这种方式,ICR能够内化ICL的底层结构,从而提高模型的泛化能力。这种设计背后的逻辑是,ICL的底层结构在不同任务之间可能存在共性,通过学习这些共性,模型可以更好地适应新的任务。
技术框架:ICR的技术框架主要包含两个关键模块:结构方向提取模块和注意力路由模块。首先,结构方向提取模块负责从ICL过程中提取可重用的结构方向。这些方向代表了ICL过程中重要的信息流动模式。然后,注意力路由模块利用一个可学习的输入条件路由器,根据输入来调节注意力logits。这个路由器决定了如何将提取的结构方向应用到当前的输入上,从而实现对注意力机制的动态调整。整个框架采用一次训练、多次复用的模式,即模型只需要在一个数据集上进行训练,就可以泛化到其他数据集上。
关键创新:ICR最重要的技术创新点在于它将ICL的底层结构内化到注意力logits级别。与现有方法相比,ICR不再依赖于任务特定的残差流,而是直接学习ICL的结构性模式。这种做法的本质区别在于,ICR试图学习一种通用的ICL机制,而不是针对特定任务进行优化。通过这种方式,ICR能够更好地泛化到新的任务上。
关键设计:ICR的关键设计包括:1) 结构方向提取模块的具体实现方式,例如如何选择合适的损失函数来鼓励模型学习可重用的结构方向;2) 注意力路由模块的网络结构,例如路由器的层数、激活函数等;3) 如何将提取的结构方向应用到注意力logits上,例如采用加权求和的方式,其中权重由路由器决定。此外,训练数据的选择和预处理也是关键的设计因素,需要仔细考虑如何选择具有代表性的数据来训练模型。
📊 实验亮点
ICR在12个真实世界数据集上进行了评估,涵盖了不同的领域和多个LLM。实验结果表明,ICR始终优于需要任务特定检索或训练的现有隐式ICL方法。更重要的是,ICR在现有方法难以处理的领域外任务中表现出强大的泛化能力,证明了其优越的性能和实用价值。
🎯 应用场景
ICR具有广泛的应用前景,可应用于各种需要快速适应新任务的场景,例如:智能客服、机器翻译、文本摘要等。它能够降低模型对大量标注数据的依赖,提高模型的泛化能力和适应性,从而降低开发成本,加速模型部署。未来,ICR有望成为一种通用的ICL解决方案,推动人工智能在更多领域的应用。
📄 摘要(原文)
Implicit in-context learning (ICL) has newly emerged as a promising paradigm that simulates ICL behaviors in the representation space of Large Language Models (LLMs), aiming to attain few-shot performance at zero-shot cost. However, existing approaches largely rely on injecting shift vectors into residual flows, which are typically constructed from labeled demonstrations or task-specific alignment. Such designs fall short of utilizing the structural mechanisms underlying ICL and suffer from limited generalizability. To address this, we propose In-Context Routing (ICR), a novel implicit ICL method that internalizes generalizable ICL patterns at the attention logits level. It extracts reusable structural directions that emerge during ICL and employs a learnable input-conditioned router to modulate attention logits accordingly, enabling a train-once-and-reuse framework. We evaluate ICR on 12 real-world datasets spanning diverse domains and multiple LLMs. The results show that ICR consistently outperforms prior implicit ICL methods that require task-specific retrieval or training, while demonstrating robust generalization to out-of-domain tasks where existing methods struggle. These findings position ICR to push the boundary of ICL's practical value.