Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models
作者: Ponhvoan Srey, Quang Minh Nguyen, Xiaobao Wu, Anh Tuan Luu
分类: cs.AI, cs.CL
发布日期: 2026-04-01
🔗 代码/项目: GITHUB
💡 一句话要点
提出真值锚定(TAC)校准方法,提升大语言模型不确定性估计的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不确定性估计 幻觉检测 真值对齐 事后校准
📋 核心要点
- 现有大语言模型的不确定性估计指标在不同配置下表现不稳定,限制了其应用,主要原因是这些指标并非直接基于事实正确性。
- 论文提出真值锚定(TAC)方法,通过事后校准,将原始不确定性分数映射到与事实真值对齐的分数,从而修正UE指标。
- 实验表明,即使在少量和噪声监督下,TAC也能有效学习校准良好的不确定性估计,提升大语言模型不确定性估计的可靠性。
📝 摘要(中文)
不确定性估计(UE)旨在检测大语言模型(LLM)产生的幻觉输出,以提高其可靠性。然而,UE指标在不同配置下通常表现出不稳定的性能,这严重限制了它们的应用。本文将此现象形式化为代理失效,因为大多数UE指标源于模型行为,而非明确地基于LLM输出的事实正确性。由此,我们表明UE指标在低信息状态下变得没有区分性。为了缓解这个问题,我们提出真值锚定(TAC),一种事后校准方法,通过将原始分数映射到真值对齐的分数来修正UE指标。即使在噪声和少样本监督下,我们的TAC也能支持良好校准的不确定性估计的学习,并提出了一个实用的校准协议。我们的发现强调了将启发式UE指标视为真值不确定性的直接指标的局限性,并将我们的TAC定位为实现更可靠的LLM不确定性估计的必要步骤。代码库可在https://github.com/ponhvoan/TruthAnchor/获取。
🔬 方法详解
问题定义:论文旨在解决大语言模型不确定性估计(UE)指标在不同配置下性能不稳定的问题。现有UE指标通常基于模型自身的行为(如置信度),而非直接与事实真值对齐,导致在信息不足的情况下,UE指标失效,无法有效区分正确和错误的输出。这种现象被称为“代理失效”。
核心思路:论文的核心思路是通过事后校准,将现有的UE指标分数映射到与事实真值对齐的分数。具体来说,就是学习一个映射函数,将原始的UE分数转换为更能反映输出真实性的校准分数。这样即使原始UE指标存在偏差,也能通过校准使其更可靠。
技术框架:TAC方法是一个事后校准框架,主要包含以下步骤:1. 获取大语言模型的输出及其对应的原始UE分数。2. 收集少量带标签的数据,其中标签指示输出的真实性(正确或错误)。3. 使用这些带标签的数据训练一个校准模型,该模型学习从原始UE分数到真值对齐分数的映射。4. 使用训练好的校准模型,将新的大语言模型输出的原始UE分数转换为校准后的分数。
关键创新:论文的关键创新在于提出了“真值锚定”的概念,强调不确定性估计应该与事实真值对齐。通过学习一个校准模型,将原始UE分数与真值关联起来,从而克服了现有UE指标的“代理失效”问题。这种方法不需要修改大语言模型本身,而是通过事后处理来提升UE的可靠性。
关键设计:TAC方法的关键设计在于校准模型的选择和训练。论文中使用了简单的线性模型作为校准模型,并采用交叉熵损失函数进行训练。为了应对噪声标签和少量数据的情况,论文还探索了不同的正则化技术和数据增强方法。此外,论文还提出了一个实用的校准协议,指导如何有效地收集和使用带标签的数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TAC方法能够显著提升现有UE指标的性能。即使在少量和噪声监督下,TAC也能学习到校准良好的不确定性估计,从而更准确地检测大语言模型的幻觉输出。例如,在某个数据集上,TAC可以将UE指标的准确率提升10%以上,并且在不同的模型和数据集上都表现出一致的提升效果。
🎯 应用场景
该研究成果可应用于各种需要大语言模型提供可靠输出的场景,例如:自动问答系统、文本摘要、机器翻译等。通过提高不确定性估计的准确性,可以有效降低大语言模型产生幻觉的风险,提升用户体验和系统安全性。未来,该方法还可以扩展到其他类型的人工智能模型,提高其可靠性和可信度。
📄 摘要(原文)
Uncertainty estimation (UE) aims to detect hallucinated outputs of large language models (LLMs) to improve their reliability. However, UE metrics often exhibit unstable performance across configurations, which significantly limits their applicability. In this work, we formalise this phenomenon as proxy failure, since most UE metrics originate from model behaviour, rather than being explicitly grounded in the factual correctness of LLM outputs. With this, we show that UE metrics become non-discriminative precisely in low-information regimes. To alleviate this, we propose Truth AnChoring (TAC), a post-hoc calibration method to remedy UE metrics, by mapping the raw scores to truth-aligned scores. Even with noisy and few-shot supervision, our TAC can support the learning of well-calibrated uncertainty estimates, and presents a practical calibration protocol. Our findings highlight the limitations of treating heuristic UE metrics as direct indicators of truth uncertainty, and position our TAC as a necessary step toward more reliable uncertainty estimation for LLMs. The code repository is available at https://github.com/ponhvoan/TruthAnchor/.