Towards Generalizable Implicit In-Context Learning with Attention Routing

作者: Jiaqian Li, Yanshu Li, Ligong Han, Ruixiang Tang, Wenya Wang

分类: cs.CL

发布日期: 2025-09-26

💡 一句话要点

提出In-Context Routing (ICR)，通过注意力路由实现通用隐式上下文学习。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隐式上下文学习 注意力机制 路由网络 泛化能力 大型语言模型

📋 核心要点

现有隐式ICL方法依赖于任务特定的残差流，缺乏对ICL底层结构机制的利用，泛化能力受限。
提出In-Context Routing (ICR)，通过学习可重用的结构方向并调节注意力logits，实现通用隐式ICL。
在多个数据集和LLM上的实验表明，ICR优于现有方法，并在领域外任务中表现出强大的泛化能力。

📝 摘要（中文）

隐式上下文学习(ICL)作为一种新兴范式，旨在模拟大型语言模型(LLM)表征空间中的ICL行为，以零样本成本获得少样本性能。然而，现有方法主要依赖于将移位向量注入残差流，而这些残差流通常由带标签的演示或特定于任务的对齐构建。这种设计未能充分利用ICL的底层结构机制，并且泛化能力有限。为了解决这个问题，我们提出In-Context Routing (ICR)，一种新颖的隐式ICL方法，它在注意力logits级别内化可泛化的ICL模式。它提取ICL期间出现的可重用结构方向，并采用可学习的输入条件路由器来相应地调节注意力logits，从而实现一次训练、多次复用的框架。我们在涵盖不同领域的12个真实世界数据集和多个LLM上评估ICR。结果表明，ICR始终优于需要特定于任务的检索或训练的现有隐式ICL方法，同时对现有方法难以处理的领域外任务表现出强大的泛化能力。这些发现使ICR能够推动ICL的实际价值。

🔬 方法详解

问题定义：现有隐式上下文学习方法依赖于将移位向量注入残差流，这些移位向量通常需要带标签的演示数据或针对特定任务进行对齐。这种做法的痛点在于，它未能充分利用ICL内在的结构性机制，导致模型泛化能力不足，难以适应新的、未见过的任务。

核心思路：ICR的核心思路在于，它不再依赖于任务特定的残差流，而是试图学习一种通用的、可重用的ICL模式。具体来说，它提取在ICL过程中出现的结构方向，并利用这些方向来调节注意力logits。通过这种方式，ICR能够内化ICL的底层结构，从而提高模型的泛化能力。这种设计背后的逻辑是，ICL的底层结构在不同任务之间可能存在共性，通过学习这些共性，模型可以更好地适应新的任务。

技术框架：ICR的技术框架主要包含两个关键模块：结构方向提取模块和注意力路由模块。首先，结构方向提取模块负责从ICL过程中提取可重用的结构方向。这些方向代表了ICL过程中重要的信息流动模式。然后，注意力路由模块利用一个可学习的输入条件路由器，根据输入来调节注意力logits。这个路由器决定了如何将提取的结构方向应用到当前的输入上，从而实现对注意力机制的动态调整。整个框架采用一次训练、多次复用的模式，即模型只需要在一个数据集上进行训练，就可以泛化到其他数据集上。

关键创新：ICR最重要的技术创新点在于它将ICL的底层结构内化到注意力logits级别。与现有方法相比，ICR不再依赖于任务特定的残差流，而是直接学习ICL的结构性模式。这种做法的本质区别在于，ICR试图学习一种通用的ICL机制，而不是针对特定任务进行优化。通过这种方式，ICR能够更好地泛化到新的任务上。

关键设计：ICR的关键设计包括：1) 结构方向提取模块的具体实现方式，例如如何选择合适的损失函数来鼓励模型学习可重用的结构方向；2) 注意力路由模块的网络结构，例如路由器的层数、激活函数等；3) 如何将提取的结构方向应用到注意力logits上，例如采用加权求和的方式，其中权重由路由器决定。此外，训练数据的选择和预处理也是关键的设计因素，需要仔细考虑如何选择具有代表性的数据来训练模型。

📊 实验亮点

ICR在12个真实世界数据集上进行了评估，涵盖了不同的领域和多个LLM。实验结果表明，ICR始终优于需要任务特定检索或训练的现有隐式ICL方法。更重要的是，ICR在现有方法难以处理的领域外任务中表现出强大的泛化能力，证明了其优越的性能和实用价值。

🎯 应用场景

ICR具有广泛的应用前景，可应用于各种需要快速适应新任务的场景，例如：智能客服、机器翻译、文本摘要等。它能够降低模型对大量标注数据的依赖，提高模型的泛化能力和适应性，从而降低开发成本，加速模型部署。未来，ICR有望成为一种通用的ICL解决方案，推动人工智能在更多领域的应用。

📄 摘要（原文）

Implicit in-context learning (ICL) has newly emerged as a promising paradigm that simulates ICL behaviors in the representation space of Large Language Models (LLMs), aiming to attain few-shot performance at zero-shot cost. However, existing approaches largely rely on injecting shift vectors into residual flows, which are typically constructed from labeled demonstrations or task-specific alignment. Such designs fall short of utilizing the structural mechanisms underlying ICL and suffer from limited generalizability. To address this, we propose In-Context Routing (ICR), a novel implicit ICL method that internalizes generalizable ICL patterns at the attention logits level. It extracts reusable structural directions that emerge during ICL and employs a learnable input-conditioned router to modulate attention logits accordingly, enabling a train-once-and-reuse framework. We evaluate ICR on 12 real-world datasets spanning diverse domains and multiple LLMs. The results show that ICR consistently outperforms prior implicit ICL methods that require task-specific retrieval or training, while demonstrating robust generalization to out-of-domain tasks where existing methods struggle. These findings position ICR to push the boundary of ICL's practical value.

Towards Generalizable Implicit In-Context Learning with Attention Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册