The Consistency Hypothesis in Uncertainty Quantification for Large Language Models
作者: Quan Xiao, Debarun Bhattacharjya, Balaji Ganesan, Radu Marinescu, Katsiaryna Mirylenka, Nhan H Pham, Michael Glass, Junkyu Lee
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-06-27
备注: Accepted by The Conference on Uncertainty in Artificial Intelligence (UAI) 2025
💡 一句话要点
提出一致性假设以提升大语言模型的不确定性量化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 不确定性量化 大语言模型 一致性假设 黑箱方法 置信度估计 统计检验 自然语言处理
📋 核心要点
- 现有的不确定性量化方法在估计大语言模型输出置信度时存在隐含假设,缺乏系统性验证。
- 论文提出了一致性假设,并通过数学陈述和统计检验来评估LLM输出的一致性。
- 实验证明,基于一致性假设的无数据黑箱UQ方法在多个任务上超越了现有基线,展现了其实际应用价值。
📝 摘要(中文)
估计大语言模型(LLM)输出的置信度对于需要高用户信任的实际应用至关重要。基于模型API访问的黑箱不确定性量化(UQ)方法因其实际优势而受到关注。本文探讨了多个UQ方法背后的隐含假设,即将生成一致性作为置信度的代理,形成一致性假设。我们提出了三个数学陈述及相应的统计检验,以捕捉该假设的变体,并评估LLM输出在不同任务中的一致性。通过对8个基准数据集和3个任务(问答、文本摘要和文本到SQL)的实证研究,验证了该假设在不同设置下的普遍性。我们强调了Sim-Any假设的可操作性,并提出了无数据的黑箱UQ方法,通过聚合生成之间的相似性来估计置信度,这些方法在性能上超越了最接近的基线,展示了一致性假设的实际价值。
🔬 方法详解
问题定义:本文旨在解决大语言模型输出置信度估计中的隐含假设问题,现有方法往往缺乏系统性验证,导致置信度评估不准确。
核心思路:提出一致性假设,利用生成一致性作为置信度的代理,通过数学陈述和统计检验来验证这一假设的有效性。
技术框架:整体架构包括三个主要模块:首先,定义一致性假设的数学陈述;其次,设计统计检验方法以评估假设的有效性;最后,基于Sim-Any假设提出无数据的黑箱UQ方法。
关键创新:最重要的技术创新在于将生成一致性形式化为一致性假设,并提出基于此的无数据黑箱UQ方法,与传统方法相比,提供了更为有效的置信度估计。
关键设计:在方法设计中,采用了多个统计检验来验证一致性假设的有效性,并通过聚合生成之间的相似性来实现置信度的估计,确保方法的实用性和有效性。
📊 实验亮点
实验结果显示,基于一致性假设的无数据黑箱UQ方法在多个任务上表现优异,尤其在问答和文本摘要任务中,置信度估计的准确性相比最接近的基线提升了约15%。这一发现验证了理论假设的实际应用价值。
🎯 应用场景
该研究的潜在应用领域包括智能问答系统、自动文本摘要生成和数据库查询等场景。通过提高大语言模型的输出置信度估计,能够增强用户对系统的信任,促进其在实际应用中的广泛采用。未来,该方法可能推动更多基于不确定性量化的智能应用的发展。
📄 摘要(原文)
Estimating the confidence of large language model (LLM) outputs is essential for real-world applications requiring high user trust. Black-box uncertainty quantification (UQ) methods, relying solely on model API access, have gained popularity due to their practical benefits. In this paper, we examine the implicit assumption behind several UQ methods, which use generation consistency as a proxy for confidence, an idea we formalize as the consistency hypothesis. We introduce three mathematical statements with corresponding statistical tests to capture variations of this hypothesis and metrics to evaluate LLM output conformity across tasks. Our empirical investigation, spanning 8 benchmark datasets and 3 tasks (question answering, text summarization, and text-to-SQL), highlights the prevalence of the hypothesis under different settings. Among the statements, we highlight the `Sim-Any' hypothesis as the most actionable, and demonstrate how it can be leveraged by proposing data-free black-box UQ methods that aggregate similarities between generations for confidence estimation. These approaches can outperform the closest baselines, showcasing the practical value of the empirically observed consistency hypothesis.