Uncertainty Quantification of Large Language Models using Approximate Bayesian Computation
作者: Mridul Sharma, Adeetya Patel, Zaneta D' Souza, Samira Abbasgholizadeh Rahimi, Siva Reddy, Sreenath Madathil
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-09-19
💡 一句话要点
提出基于近似贝叶斯计算的大语言模型不确定性量化方法,提升临床诊断可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不确定性量化 近似贝叶斯计算 临床诊断 模型校准
📋 核心要点
- 大型语言模型在关键领域部署受限,原因是其不确定性表达能力弱,导致预测结果的可靠性不足。
- 论文提出近似贝叶斯计算方法,将大语言模型视为随机模拟器,推断预测概率的后验分布,从而量化不确定性。
- 实验结果表明,该方法在临床诊断数据集上显著提升了准确率和校准度,降低了Brier分数。
📝 摘要(中文)
大型语言模型(LLM)应用广泛,但其不确定性表达能力不足,给临床诊断等高风险领域的可靠部署带来挑战。现有方法如模型logits和概率激发产生过度自信且校准不良的估计。本文提出近似贝叶斯计算(ABC),一种无似然贝叶斯推断方法,将LLM视为随机模拟器,以推断预测概率的后验分布。在合成口腔病变诊断数据集和GretelAI症状-诊断公开数据集上的评估表明,与标准基线相比,该方法准确率提升高达46.9%,Brier分数降低74.4%,并通过预期校准误差(ECE)和预测熵的测量,增强了校准效果。
🔬 方法详解
问题定义:大型语言模型在临床诊断等高风险领域应用时,需要准确量化预测结果的不确定性。然而,现有方法,如直接使用模型的logits或概率输出,往往产生过度自信且校准不良的估计,导致决策风险增加。因此,如何有效量化LLM的不确定性是亟待解决的问题。
核心思路:论文的核心思路是将LLM视为一个随机模拟器,通过观察LLM的输出结果,反向推断其内部参数的后验分布。具体而言,利用近似贝叶斯计算(ABC)方法,无需显式计算似然函数,而是通过比较模拟数据和真实数据的差异来近似后验分布。
技术框架:该方法主要包含以下几个阶段:1)定义先验分布:为LLM的预测概率设置一个先验分布。2)数据模拟:从先验分布中采样,并使用LLM生成模拟数据。3)相似度评估:比较模拟数据和真实数据的差异,计算相似度。4)后验推断:基于相似度评估结果,更新后验分布。通过迭代上述过程,逐步逼近真实的后验分布。
关键创新:该方法最重要的创新在于将近似贝叶斯计算应用于LLM的不确定性量化。与传统方法相比,ABC无需显式计算似然函数,从而避免了复杂的模型假设和计算。此外,该方法能够有效地利用LLM的生成能力,通过模拟数据来推断后验分布,从而更准确地量化不确定性。
关键设计:在具体实现中,论文采用了基于距离的相似度度量方法,例如欧氏距离或余弦相似度,来衡量模拟数据和真实数据的差异。此外,论文还探索了不同的先验分布和采样策略,以提高后验推断的效率和准确性。对于临床诊断任务,论文特别关注了模型的校准性能,并采用了预期校准误差(ECE)等指标进行评估。
📊 实验亮点
实验结果表明,在临床诊断数据集上,该方法相比标准基线,准确率提升高达46.9%,Brier分数降低74.4%,预期校准误差(ECE)显著降低,预测熵也得到改善。这些结果表明,该方法能够有效地量化大语言模型的不确定性,并提高预测结果的可靠性。
🎯 应用场景
该研究成果可应用于医疗诊断、金融风控、自动驾驶等高风险领域,提升决策系统的可靠性和安全性。通过量化大语言模型的不确定性,可以帮助用户更好地理解模型的预测结果,并做出更明智的决策。未来,该方法有望推广到其他类型的大模型和更广泛的应用场景。
📄 摘要(原文)
Despite their widespread applications, Large Language Models (LLMs) often struggle to express uncertainty, posing a challenge for reliable deployment in high stakes and safety critical domains like clinical diagnostics. Existing standard baseline methods such as model logits and elicited probabilities produce overconfident and poorly calibrated estimates. In this work, we propose Approximate Bayesian Computation (ABC), a likelihood-free Bayesian inference, based approach that treats LLMs as a stochastic simulator to infer posterior distributions over predictive probabilities. We evaluate our ABC approach on two clinically relevant benchmarks: a synthetic oral lesion diagnosis dataset and the publicly available GretelAI symptom-to-diagnosis dataset. Compared to standard baselines, our approach improves accuracy by up to 46.9\%, reduces Brier scores by 74.4\%, and enhances calibration as measured by Expected Calibration Error (ECE) and predictive entropy.