Large Language Models are Miscalibrated In-Context Learners

📄 arXiv: 2312.13772v3 📥 PDF

作者: Chengzu Li, Han Zhou, Goran Glavaš, Anna Korhonen, Ivan Vulić

分类: cs.CL, cs.AI, cs.LG

发布日期: 2023-12-21 (更新: 2025-05-21)

备注: 9 pages, 4 figures, 5 tables (20 pages, 5 figures, 13 tables including references and appendices)


💡 一句话要点

揭示大语言模型上下文学习的校准问题,并提出自集成方法提升校准度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文学习 校准 自集成 低资源学习 指令调优 置信度 模型校准

📋 核心要点

  1. 现有指令调优的大语言模型在低资源场景下上下文学习时,存在校准不良(过度自信)的问题。
  2. 论文提出在不同建模阶段应用自集成方法,例如对上下文示例或提示进行变动,以提升校准度。
  3. 实验表明,使用最大概率的自集成方法能够产生稳健且校准良好的预测,同时提升任务性能。

📝 摘要(中文)

本文深入分析了指令调优的大语言模型在低资源场景下,通过上下文学习(ICL)进行适应时,其校准性能。研究发现,尽管模型具有强大的指令遵循能力,但所有学习方法都存在校准不良的问题,即过度自信。为了同时提升任务性能和校准度,本文探索了在不同建模阶段应用自集成方法的潜力,例如对上下文示例、提示或集成策略进行变动。实验结果表明,使用最大概率的自集成方法能够产生稳健且校准良好的预测。这项工作揭示了ICL在提升任务性能的同时,可能存在的校准问题,并阐明了学习范式的选择。此外,本文还为选择学习范式提供了实用指南,并提出了一种通过自集成来增强语言模型任务性能和校准度的有效解决方案,以期鼓励进一步研究。

🔬 方法详解

问题定义:论文关注的是大语言模型在上下文学习(In-Context Learning, ICL)场景下的校准问题。具体来说,即使模型在任务性能上有所提升,但其预测结果的置信度往往与其准确性不匹配,即模型过度自信。现有方法未能有效解决低资源场景下ICL的校准问题,导致模型在实际应用中可能做出错误的判断。

核心思路:论文的核心思路是通过自集成(Self-Ensembling)来提高模型的校准度。自集成的基本思想是利用模型自身的不同变体进行预测,然后将这些预测结果进行集成,从而降低预测的方差,提高预测的可靠性。通过对上下文示例、提示或集成策略进行变动,生成不同的模型变体,并利用这些变体进行预测。

技术框架:整体框架包括以下几个主要步骤:1) 使用不同的上下文示例或提示,生成多个不同的输入;2) 使用同一个大语言模型对这些不同的输入进行预测,得到多个预测结果;3) 使用不同的集成策略(例如最大概率)将这些预测结果进行集成,得到最终的预测结果。该框架的关键在于如何生成多样化的输入,以及如何选择合适的集成策略。

关键创新:论文的关键创新在于将自集成方法应用于大语言模型的上下文学习场景,并探索了在不同建模阶段进行自集成的效果。与传统的集成方法不同,自集成不需要训练多个独立的模型,而是通过对同一个模型进行多次预测来实现集成,从而降低了计算成本。此外,论文还提出了使用最大概率作为集成策略,实验表明该策略能够产生稳健且校准良好的预测。

关键设计:论文的关键设计包括:1) 上下文示例的选择:论文探索了不同的上下文示例选择策略,例如随机选择、基于相似度选择等。2) 提示的设计:论文探索了不同的提示设计方法,例如使用不同的问题描述、使用不同的指令等。3) 集成策略的选择:论文探索了不同的集成策略,例如平均概率、最大概率等。实验结果表明,使用最大概率作为集成策略能够获得最佳的校准性能。

📊 实验亮点

实验结果表明,在低资源场景下,所有学习方法都存在校准不良的问题。通过应用自集成方法,特别是使用最大概率进行集成,可以显著提高模型的校准度,同时保持甚至提升任务性能。例如,自集成方法在多个数据集上都取得了优于基线模型的校准性能,并且在某些数据集上,任务性能也得到了提升。

🎯 应用场景

该研究成果可应用于各种需要高可靠性和准确性的自然语言处理任务,例如医疗诊断、金融风险评估、法律文本分析等。通过提高大语言模型的校准度,可以减少模型犯错的可能性,从而提高决策的质量和效率。未来的研究可以进一步探索更有效的自集成方法,以及如何将自集成方法与其他校准技术相结合。

📄 摘要(原文)

When adapting ICL with or without fine-tuning, we are curious about whether the instruction-tuned language model is able to achieve well-calibrated results without suffering from the problem of overconfidence (i.e., miscalibration) considering its strong instruction following ability, especially in such limited data setups. In this work, we deliver an in-depth analysis of the behavior across different choices of learning methods from the perspective of both performance and calibration. Through extensive controlled experiments, we observe that the miscalibration problem exists across all learning methods in low-resource setups. To achieve simultaneous gain for both in-task performance and calibration, we then study the potential of self-ensembling applied at different modeling stages (e.g., variations of in-context examples or variations in prompts or different ensembling strategies) to make the predictions more calibrated and have comparable or even better performance. We find that self-ensembling with max probability produces robust and calibrated predictions. Our work reveals the potential calibration problem of using ICL despite the improvements in task performance and sheds light on which learning paradigm to choose. We also provide practical guidelines for choosing learning paradigms depending on whether the data has been seen by the model before and a worthwhile solution via self-ensembling on how to enhance both task performance and calibration of LMs, which we hope could encourage further study.