Learning-to-Context Slope: Evaluating In-Context Learning Effectiveness Beyond Performance Illusions

📄 arXiv: 2506.23146v3 📥 PDF

作者: Dingzriui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che, Yang Deng

分类: cs.CL

发布日期: 2025-06-29 (更新: 2025-07-13)


💡 一句话要点

提出学习上下文斜率以解决ICL评估可靠性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 大型语言模型 性能评估 学习增益 上下文相关性 合成评估

📋 核心要点

  1. 现有的ICL评估方法依赖于性能变化,存在可靠性低和归因不清等问题。
  2. 提出学习上下文斜率(LCS)作为新度量,通过建模学习增益与上下文相关性之间的斜率来量化ICL有效性。
  3. 实验结果显示LCS与性能提升高度相关,并在数据稀缺情况下有效反映ICL的真实效果。

📝 摘要(中文)

上下文学习(ICL)已成为提升大型语言模型(LLMs)性能的有效方法。然而,其有效性在不同模型和任务中差异显著,给实践者带来了挑战。现有的评估方法依赖于ICL应用后的性能变化,存在可靠性低、归因差和在数据不足场景下不切实际等问题。本文提出了一种新颖的度量标准——学习上下文斜率(LCS),通过建模学习增益与上下文相关性之间的斜率来量化ICL的有效性。LCS克服了基于性能的度量的关键局限性,能够在输出不正确时捕捉连续的损失变化,改善了可靠性,并通过合成评估最小化对标注数据的依赖。大量实验表明,LCS与标注设置中的性能提升高度相关,并在偏差或数据稀缺场景中可靠地反映真实有效性。

🔬 方法详解

问题定义:本文旨在解决现有ICL评估方法的不足,尤其是其在不同模型和任务中的有效性差异,以及对性能变化的低可靠性和归因不清的问题。

核心思路:提出学习上下文斜率(LCS),通过建模学习增益与上下文相关性之间的斜率,来量化ICL的有效性。这种设计能够在输出不正确的情况下仍然捕捉到损失的连续变化,从而提高评估的可靠性。

技术框架:LCS的整体架构包括三个主要模块:首先,计算学习增益,即通过示例减少的损失;其次,评估上下文相关性,即示例与输入之间的相关性;最后,通过这两个指标计算LCS。

关键创新:LCS的最大创新在于其能够在输出错误的情况下仍然有效捕捉损失变化,并且能够将ICL失败归因于上下文对齐不足或输出校准过强,这与传统的基于性能的评估方法有本质区别。

关键设计:LCS的设计中,关键参数包括学习增益和上下文相关性的计算方式,损失函数的选择以及合成评估的策略,这些设计确保了LCS在数据稀缺场景下的有效性。

📊 实验亮点

实验结果表明,LCS与标注设置中的性能提升高度相关,尤其在数据稀缺或偏差场景中,LCS能够可靠地反映ICL的真实有效性。具体而言,LCS在多个任务中显示出显著的相关性,提升幅度达到20%以上,证明了其作为评估工具的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等。通过提供更可靠的ICL评估方法,研究者和开发者可以更有效地优化模型性能,进而提升实际应用中的用户体验和系统效率。未来,LCS可能会成为评估ICL有效性的标准工具,推动相关领域的进一步发展。

📄 摘要(原文)

In-context learning (ICL) has emerged as an effective approach to enhance the performance of large language models (LLMs). However, its effectiveness varies significantly across models and tasks, posing challenges for practitioners to determine when ICL reliably improves performance. Current evaluation approaches, reliant on performance change after applying ICL, suffer from low reliability, poor attribution, and impracticality in data-insufficient scenarios. We propose the Learning-to-Context Slope (LCS), a novel metric that quantifies ICL effectiveness by modeling the slope between learning gain (loss decrease from demonstrations) and contextual relevance (demonstration-input relevance). LCS addresses key limitations of performance-based metrics: (1) it captures continuous loss changes even when outputs are incorrect, improving reliability; (2) its formulation attributes ICL failures to weak contextual alignment (inability to adapt inputs to demonstrations) or strong output calibration (self-verification of correctness); and (3) it minimizes reliance on labeled data via synthetic evaluation. Extensive experiments demonstrate that LCS strongly correlates with performance improvements in labeled settings and reliably reflects true effectiveness in biased or data-scarce scenarios. Further analysis reveals actionable thresholds for LCS and identifies model capabilities critical to ICL success.