From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty
作者: Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner
分类: cs.LG, cs.AI
发布日期: 2026-03-06
备注: 4 pages, submitted to AISTATS Workshop
💡 一句话要点
提出一种基于熵校准的语言模型不确定性推理训练方法,提升校准性和计算效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 不确定性估计 校准 强化学习 熵 Platt缩放 后训练
📋 核心要点
- 现有LLM不确定性估计方法计算成本高,或缺乏良好的校准性,难以应用于高风险领域。
- 该论文提出三阶段训练流程,利用熵校准和强化学习,使LLM能够高效推理校准的不确定性。
- 实验结果表明,该方法训练的模型在校准性上优于基线,并能泛化到未见过的任务。
📝 摘要(中文)
大型语言模型(LLM)在高度敏感领域中,需要能够表达可解释且校准良好的不确定性。虽然存在事后计算不确定性的方法,但它们通常基于采样,因此计算成本高昂或缺乏校准。我们提出一个三阶段流程来对LLM进行后训练,以有效地推断其响应的校准不确定性估计。首先,我们在训练数据上计算基于细粒度熵的不确定性分数,捕捉模型输出在嵌入空间中的分布变异性。其次,这些分数通过Platt缩放进行校准,产生可靠且人类可解释的不确定性信号。最后,通过强化学习对目标LLM进行后训练,通过可验证的奖励函数使其策略与这些校准信号对齐。与事后不确定性估计方法不同,我们的方法在测试时提供可解释且计算高效的不确定性估计。实验表明,使用我们的流程训练的模型比基线模型实现了更好的校准,并且无需进一步处理即可推广到未见过的任务,这表明它们学习了一种鲁棒的不确定性推理行为。
🔬 方法详解
问题定义:现有的大型语言模型在需要高可靠性的场景下,缺乏准确表达和校准其预测不确定性的能力。传统的事后不确定性估计方法,例如基于采样的方法,计算成本高昂,难以满足实际应用的需求。此外,这些方法往往缺乏良好的校准性,即模型预测的置信度与其真实准确率不匹配。
核心思路:该论文的核心思路是通过一个三阶段的训练流程,使语言模型能够学习到一种鲁棒的不确定性推理能力。首先,利用熵来衡量模型输出分布的变异性,作为不确定性的初步估计。然后,通过Platt缩放等方法对熵值进行校准,使其与模型的真实准确率相匹配。最后,利用强化学习,通过奖励函数引导模型学习产生与校准后的不确定性估计相一致的预测。
技术框架:该方法包含三个主要阶段:1) 熵计算:在训练数据上,计算模型输出在嵌入空间中的熵,作为细粒度的不确定性度量。2) 不确定性校准:使用Platt缩放等方法,将熵值校准为可靠且人类可解释的不确定性信号。3) 强化学习后训练:使用强化学习对目标LLM进行后训练,通过奖励函数使其策略与校准后的不确定性信号对齐。奖励函数的设计旨在鼓励模型产生与校准后的不确定性估计相一致的预测。
关键创新:该方法的主要创新在于提出了一种端到端的训练流程,使语言模型能够直接学习到一种校准良好的不确定性推理能力。与传统的事后不确定性估计方法相比,该方法计算效率更高,并且能够产生更可靠的不确定性估计。此外,该方法通过强化学习,将不确定性推理能力融入到模型的策略中,使其能够更好地泛化到未见过的任务。
关键设计:在熵计算阶段,论文使用了模型输出在嵌入空间中的分布来计算熵,这能够更准确地捕捉模型预测的不确定性。在不确定性校准阶段,论文使用了Platt缩放方法,将熵值映射到0到1之间的概率值,使其更易于解释和使用。在强化学习后训练阶段,论文设计了一个可验证的奖励函数,用于引导模型学习产生与校准后的不确定性估计相一致的预测。奖励函数的设计需要仔细考虑,以避免模型过度拟合校准后的不确定性信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用该方法训练的模型在校准性方面优于基线模型,并且能够泛化到未见过的任务。具体来说,该方法能够显著降低模型的校准误差,使其预测的置信度与其真实准确率更加匹配。此外,该方法训练的模型在处理未见过的任务时,也能够产生更可靠的不确定性估计,表明其学习到了一种鲁棒的不确定性推理能力。
🎯 应用场景
该研究成果可应用于金融风控、医疗诊断、自动驾驶等高风险领域,提升语言模型决策的可靠性和安全性。通过提供校准良好的不确定性估计,可以帮助用户更好地理解模型的预测,并做出更明智的决策。未来,该方法有望推广到更多类型的语言模型和任务中,进一步提升人工智能系统的可靠性和可信度。
📄 摘要(原文)
Large Language Models (LLMs) that can express interpretable and calibrated uncertainty are crucial in high-stakes domains. While methods to compute uncertainty post-hoc exist, they are often sampling-based and therefore computationally expensive or lack calibration. We propose a three-stage pipeline to post-train LLMs to efficiently infer calibrated uncertainty estimates for their responses. First, we compute fine-grained entropy-based uncertainty scores on the training data, capturing the distributional variability of model outputs in embedding space. Second, these scores are calibrated via Platt scaling, producing reliable and human-interpretable uncertainty signals. Finally, the target LLM is post-trained via reinforcement learning to align its policy with these calibrated signals through a verifiable reward function. Unlike post-hoc uncertainty estimation methods, our approach provides interpretable and computationally efficient uncertainty estimates at test time. Experiments show that models trained with our pipeline achieve better calibration than baselines and generalize to unseen tasks without further processing, suggesting that they learn a robust uncertainty reasoning behavior.