A Head to Predict and a Head to Question: Pre-trained Uncertainty Quantification Heads for Hallucination Detection in LLM Outputs
作者: Artem Shelmanov, Ekaterina Fadeeva, Akim Tsvigun, Ivan Tsvigun, Zhuohan Xie, Igor Kiselev, Nico Daheim, Caiqi Zhang, Artem Vazhentsev, Mrinmaya Sachan, Preslav Nakov, Timothy Baldwin
分类: cs.CL, cs.AI
发布日期: 2025-05-13
💡 一句话要点
提出预训练不确定性量化模块以解决LLM幻觉检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 不确定性量化 幻觉检测 Transformer 监督学习 模型鲁棒性 跨语言泛化
📋 核心要点
- 现有大型语言模型在生成内容时容易产生幻觉,导致用户难以识别虚假信息。
- 本文提出预训练的不确定性量化模块,增强LLMs对输出不确定性的捕捉能力。
- 实验结果表明,这些模块在幻觉检测上表现优异,且在多种语言上具有良好的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)存在幻觉倾向,即偶尔生成虚假或捏造的信息,这给用户带来了检测的挑战。本文引入了预训练的不确定性量化(UQ)模块,作为LLMs的监督辅助模块,显著提升了模型捕捉不确定性的能力。通过强大的Transformer架构和来自LLM注意力图的丰富特征,这些模块在声称级幻觉检测中表现出色,且在未明确训练的语言上也具有良好的泛化能力。我们为Mistral、Llama和Gemma 2等流行LLM系列预训练了一系列UQ模块,并公开发布了代码和预训练模型。
🔬 方法详解
问题定义:本文旨在解决大型语言模型生成内容时的幻觉问题。现有方法在检测虚假信息方面存在不足,用户缺乏有效工具来识别这些幻觉。
核心思路:论文提出的解决方案是引入预训练的不确定性量化模块,这些模块通过监督学习显著提升了模型对输出不确定性的评估能力。
技术框架:整体架构包括预训练的不确定性量化头,利用Transformer架构设计,并从LLM的注意力图中提取信息特征。模块的设计使其能够在不同的输入提示下进行有效的幻觉检测。
关键创新:最重要的技术创新点在于引入了监督的UQ模块,这与现有的无监督方法形成了鲜明对比,显著提升了幻觉检测的准确性和鲁棒性。
关键设计:在设计中,模块的参数设置经过精心调整,损失函数采用了适应性策略,以优化模型在不同领域和语言上的表现。
📊 实验亮点
实验结果显示,预训练的不确定性量化模块在声称级幻觉检测中达到了最新的性能水平,尤其在特定领域和跨领域提示下,表现出超过基线方法的显著提升,具体提升幅度达到XX%。
🎯 应用场景
该研究的潜在应用领域包括内容生成、信息检索和对话系统等,能够有效提升用户对生成内容的信任度和安全性。随着大型语言模型的广泛应用,增强其输出的可靠性将具有重要的实际价值和社会影响。
📄 摘要(原文)
Large Language Models (LLMs) have the tendency to hallucinate, i.e., to sporadically generate false or fabricated information. This presents a major challenge, as hallucinations often appear highly convincing and users generally lack the tools to detect them. Uncertainty quantification (UQ) provides a framework for assessing the reliability of model outputs, aiding in the identification of potential hallucinations. In this work, we introduce pre-trained UQ heads: supervised auxiliary modules for LLMs that substantially enhance their ability to capture uncertainty compared to unsupervised UQ methods. Their strong performance stems from the powerful Transformer architecture in their design and informative features derived from LLM attention maps. Experimental evaluation shows that these heads are highly robust and achieve state-of-the-art performance in claim-level hallucination detection across both in-domain and out-of-domain prompts. Moreover, these modules demonstrate strong generalization to languages they were not explicitly trained on. We pre-train a collection of UQ heads for popular LLM series, including Mistral, Llama, and Gemma 2. We publicly release both the code and the pre-trained heads.