GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models
作者: Tuo Wang, Adithya Kulkarni, Tyler Cody, Peter A. Beling, Yujun Yan, Dawei Zhou
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-09
备注: Accepted by EMNLP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
GENUINE:图增强多层次不确定性估计,提升大语言模型可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 不确定性估计 图神经网络 依赖解析 自然语言处理
📋 核心要点
- 现有大语言模型不确定性估计方法忽略了文本的语义依赖和结构关系,导致置信度评估不准确。
- GENUINE框架利用依赖解析树和分层图池化,结合监督学习,建模文本的语义和结构信息,提升不确定性估计的准确性。
- 实验结果表明,GENUINE在AUROC和校准误差方面均优于现有方法,验证了其有效性。
📝 摘要(中文)
本文提出GENUINE,一种图增强的多层次不确定性估计框架,旨在提升大语言模型(LLMs)的可靠性,尤其是在高风险应用中。现有方法通常忽略语义依赖,仅依赖于token级别的概率测量,无法捕捉生成文本中的结构关系。GENUINE利用依赖解析树和分层图池化来改进不确定性量化,通过引入监督学习,有效建模语义和结构关系,从而提升置信度评估。在多个NLP任务上的实验表明,GENUINE的AUROC比基于语义熵的方法高出29%,校准误差降低超过15%,证明了基于图的不确定性建模的有效性。代码已开源。
🔬 方法详解
问题定义:现有的大语言模型不确定性估计方法,例如基于token概率的方法,无法有效捕捉文本中的语义和结构信息。这导致模型在生成文本时,无法准确评估自身的不确定性,尤其是在高风险应用中,可能导致严重的后果。现有方法的痛点在于缺乏对文本结构化信息的利用。
核心思路:GENUINE的核心思路是利用依赖解析树来显式地建模文本的结构信息,并结合图神经网络进行学习。通过将文本转换为图结构,模型可以更好地理解词语之间的关系,从而更准确地估计生成文本的不确定性。这样设计的目的是为了弥补现有方法在语义和结构信息建模方面的不足。
技术框架:GENUINE框架主要包含以下几个模块:1) 依赖解析:使用依赖解析器将文本转换为依赖解析树。2) 图构建:基于依赖解析树构建图结构,节点表示词语,边表示词语之间的依赖关系。3) 图神经网络:使用图神经网络对图结构进行学习,提取语义和结构特征。4) 不确定性估计:基于图神经网络的输出,估计生成文本的不确定性。5) 监督学习:使用监督学习方法训练图神经网络,优化不确定性估计的准确性。
关键创新:GENUINE最重要的技术创新点在于将图神经网络引入到大语言模型的不确定性估计中。与现有方法相比,GENUINE能够显式地建模文本的结构信息,从而更准确地估计生成文本的不确定性。本质区别在于从token级别的概率估计提升到结构感知的概率估计。
关键设计:在图神经网络的设计上,论文采用了分层图池化(Hierarchical Graph Pooling)技术,以便在不同层次上提取图的特征。损失函数方面,论文使用了交叉熵损失函数,用于监督图神经网络的训练。具体的参数设置在论文中有详细描述,例如图神经网络的层数、节点特征的维度等。
📊 实验亮点
GENUINE在多个NLP任务上进行了广泛的实验,结果表明其性能显著优于现有方法。具体来说,GENUINE的AUROC比基于语义熵的方法高出29%,校准误差降低超过15%。这些结果充分证明了基于图的不确定性建模的有效性,以及GENUINE在提升大语言模型可靠性方面的潜力。
🎯 应用场景
GENUINE的研究成果可应用于各种需要高可靠性的大语言模型应用场景,例如医疗诊断、金融风控、法律咨询等。通过提高模型不确定性估计的准确性,可以帮助用户更好地理解模型的预测结果,并做出更明智的决策。未来,该技术有望进一步推广到其他自然语言处理任务中,提升人工智能系统的整体可靠性。
📄 摘要(原文)
Uncertainty estimation is essential for enhancing the reliability of Large Language Models (LLMs), particularly in high-stakes applications. Existing methods often overlook semantic dependencies, relying on token-level probability measures that fail to capture structural relationships within the generated text. We propose GENUINE: Graph ENhanced mUlti-level uncertaINty Estimation for Large Language Models, a structure-aware framework that leverages dependency parse trees and hierarchical graph pooling to refine uncertainty quantification. By incorporating supervised learning, GENUINE effectively models semantic and structural relationships, improving confidence assessments. Extensive experiments across NLP tasks show that GENUINE achieves up to 29% higher AUROC than semantic entropy-based approaches and reduces calibration errors by over 15%, demonstrating the effectiveness of graph-based uncertainty modeling. The code is available at https://github.com/ODYSSEYWT/GUQ.