KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning
作者: Vaibhav Singh, Soumya Suvra Ghosal, Kapu Nirmal Joshua, Soumyabrata Pal, Sayak Ray Chowdhury
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-19
💡 一句话要点
KITE:基于核方法和信息论的上下文学习范例选择,提升小样本分类性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 小样本学习 信息论 核方法 示例选择
📋 核心要点
- 大型语言模型上下文学习受限于上下文窗口,如何选择最具代表性的示例成为关键挑战,传统近邻方法在高维空间表现不佳,缺乏多样性。
- 论文从信息论角度出发,将LLM建模为线性函数,把示例选择转化为特定查询的优化问题,旨在最小化该查询的预测误差。
- 通过核方法在高维空间操作,并引入正则化器鼓励示例多样性,实验表明,该方法在分类任务上显著优于标准检索方法。
📝 摘要(中文)
上下文学习(ICL)已成为一种强大的范式,它仅使用提示中呈现的少量精心选择的特定于任务的示例,即可将大型语言模型(LLM)适应于新的和数据稀缺的任务。然而,鉴于LLM有限的上下文大小,一个根本问题出现了:应该选择哪些示例来最大化给定用户查询的性能?虽然基于最近邻的方法(如KATE)已被广泛采用,但它们在高维嵌入空间中存在众所周知的缺点,包括泛化能力差和缺乏多样性。在这项工作中,我们从原则性的、信息论驱动的角度研究ICL中的示例选择问题。我们首先将LLM建模为输入嵌入上的线性函数,并将示例选择任务定义为特定于查询的优化问题:从较大的示例库中选择一个示例子集,以最小化特定查询的预测误差。这种公式通过针对特定查询实例的准确预测,背离了传统的以泛化为中心的学习理论方法。我们推导出一个原则性的替代目标,该目标近似于次模,从而可以使用具有近似保证的贪婪算法。我们通过以下方式进一步增强了我们的方法:(i) 结合核技巧以在高维特征空间中操作而无需显式映射,以及(ii) 引入基于最优设计的正则化器以鼓励所选示例的多样性。在经验上,我们证明了在各种分类任务中相对于标准检索方法的显着改进,突出了结构感知、多样化示例选择对于现实世界、标签稀缺场景中ICL的好处。
🔬 方法详解
问题定义:现有上下文学习方法在选择示例时,在高维嵌入空间中面临泛化能力差和缺乏多样性的问题。传统的最近邻方法无法有效选择最具代表性和信息量的示例,导致模型在特定查询上的预测性能下降。论文旨在解决如何在有限的上下文窗口内,选择最佳示例子集,以最大化LLM在特定查询上的预测准确性。
核心思路:论文的核心思路是将示例选择问题转化为一个特定于查询的优化问题。通过将LLM建模为输入嵌入上的线性函数,目标是选择一个示例子集,使得在该子集上训练的模型能够最小化对特定查询的预测误差。这种方法不同于传统的泛化学习,而是专注于优化特定查询的性能。
技术框架:KITE方法包含以下主要步骤:1) 将LLM建模为输入嵌入的线性函数。2) 将示例选择问题形式化为最小化特定查询预测误差的优化问题。3) 推导出一个近似次模的替代目标函数,以便使用贪婪算法进行优化。4) 使用核技巧在高维特征空间中操作,避免显式映射。5) 引入基于最优设计的正则化器,以鼓励所选示例的多样性。
关键创新:论文的关键创新在于:1) 从信息论的角度对上下文学习中的示例选择问题进行了建模,并提出了一个特定于查询的优化框架。2) 利用核技巧在高维空间中进行操作,避免了传统方法的维度灾难问题。3) 引入了基于最优设计的正则化器,有效提升了所选示例的多样性,从而提高了模型的泛化能力。
关键设计:论文的关键设计包括:1) 使用线性模型近似LLM的行为,简化了优化问题。2) 推导出的替代目标函数,该函数近似次模,允许使用高效的贪婪算法进行求解,并提供近似保证。3) 核函数的选择,允许在高维特征空间中进行操作,而无需显式计算特征映射。4) 正则化器的设计,鼓励选择具有代表性和多样性的示例,避免选择冗余或相似的示例。
📊 实验亮点
实验结果表明,KITE方法在多个分类任务上显著优于现有的上下文学习方法。相较于标准的最近邻检索方法,KITE在准确率上有显著提升,尤其是在标签稀缺的场景下。这验证了结构感知和多样性示例选择对于上下文学习的重要性。
🎯 应用场景
该研究成果可应用于各种小样本学习场景,尤其是在数据标注成本高昂或数据稀缺的领域,例如医疗诊断、金融风控、自然语言处理等。通过更有效地选择上下文示例,可以显著提升LLM在这些领域的应用效果,降低对大量标注数据的依赖,加速模型部署。
📄 摘要(原文)
In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.