Unsupervised Hallucination Detection by Inspecting Reasoning Processes

📄 arXiv: 2509.10004v1 📥 PDF

作者: Ponhvoan Srey, Xiaobao Wu, Anh Tuan Luu

分类: cs.CL, cs.AI

发布日期: 2025-09-12

备注: To appear in EMNLP 2025


💡 一句话要点

提出IRIS框架,通过检查LLM推理过程实现无监督幻觉检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 无监督学习 大型语言模型 推理过程 事实验证

📋 核心要点

  1. 现有无监督幻觉检测方法依赖于与事实正确性无关的代理信号,泛化能力受限。
  2. IRIS框架通过提示LLM验证陈述真实性,利用其内部表示和不确定性进行幻觉检测。
  3. 实验表明IRIS在无监督幻觉检测任务中优于现有方法,且计算成本低,适用于实时检测。

📝 摘要(中文)

无监督幻觉检测旨在无需标注数据的情况下,识别大型语言模型(LLM)生成的幻觉内容。尽管无监督方法因避免了耗时的人工标注而日益普及,但它们通常依赖于与事实正确性无关的代理信号。这种错位导致检测探针偏向于表面或非真值相关的方面,限制了跨数据集和场景的泛化能力。为了克服这些限制,我们提出了IRIS,一个无监督幻觉检测框架,利用了事实正确性内在的内部表示。IRIS提示LLM仔细验证给定陈述的真实性,并获得其上下文嵌入作为训练的信息特征。同时,每个响应的不确定性被认为是真实性的软伪标签。实验结果表明,IRIS始终优于现有的无监督方法。我们的方法是完全无监督的,计算成本低,即使在少量训练数据下也能很好地工作,使其适用于实时检测。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中无监督幻觉检测的问题。现有无监督方法的痛点在于,它们依赖于与事实正确性无关的代理信号,导致检测器偏向于表面或非真值相关的特征,从而限制了其在不同数据集和场景下的泛化能力。这些方法无法真正理解和评估LLM生成内容的真实性,而是依赖于一些间接的、可能具有误导性的指标。

核心思路:IRIS的核心思路是利用LLM自身进行事实验证,并将其内部推理过程中的表示作为幻觉检测的依据。通过提示LLM仔细验证给定陈述的真实性,可以获得LLM对该陈述的上下文理解和置信度。这些信息蕴含了LLM对事实的判断,因此可以作为训练幻觉检测器的有效特征。同时,LLM响应的不确定性被用作真实性的软伪标签,进一步指导检测器的学习。

技术框架:IRIS框架主要包含以下几个阶段:1) 提示LLM验证给定陈述的真实性,并获取其上下文嵌入表示。2) 将LLM响应的不确定性作为真实性的软伪标签。3) 使用上下文嵌入表示和软伪标签训练幻觉检测器。检测器可以是任何分类模型,用于区分真实内容和幻觉内容。整个框架是无监督的,不需要人工标注数据。

关键创新:IRIS的关键创新在于利用了LLM内部的推理过程进行幻觉检测。与以往依赖外部代理信号的方法不同,IRIS直接利用LLM对事实的理解和判断,从而更准确地识别幻觉内容。此外,使用LLM响应的不确定性作为软伪标签,可以有效地利用未标注数据进行训练,提高检测器的性能。

关键设计:IRIS的关键设计包括:1) 精心设计的提示语,引导LLM进行事实验证。2) 使用LLM的上下文嵌入表示作为特征,捕捉LLM对陈述的理解。3) 将LLM响应的不确定性转化为软伪标签,用于指导检测器的训练。具体的不确定性度量方法和检测器模型可以根据具体应用场景进行选择。

📊 实验亮点

实验结果表明,IRIS在无监督幻觉检测任务中始终优于现有的无监督方法。具体性能数据未知,但论文强调IRIS在计算成本低廉且训练数据量少的情况下也能表现良好,使其适用于实时检测。

🎯 应用场景

IRIS可应用于各种需要检测LLM生成内容真实性的场景,例如:新闻生成、问答系统、对话机器人等。通过实时检测幻觉内容,可以提高LLM生成内容的质量和可靠性,避免误导用户。该研究有助于提升LLM在开放域应用中的可信度,并为构建更安全、更可靠的人工智能系统奠定基础。

📄 摘要(原文)

Unsupervised hallucination detection aims to identify hallucinated content generated by large language models (LLMs) without relying on labeled data. While unsupervised methods have gained popularity by eliminating labor-intensive human annotations, they frequently rely on proxy signals unrelated to factual correctness. This misalignment biases detection probes toward superficial or non-truth-related aspects, limiting generalizability across datasets and scenarios. To overcome these limitations, we propose IRIS, an unsupervised hallucination detection framework, leveraging internal representations intrinsic to factual correctness. IRIS prompts the LLM to carefully verify the truthfulness of a given statement, and obtain its contextualized embedding as informative features for training. Meanwhile, the uncertainty of each response is considered a soft pseudolabel for truthfulness. Experimental results demonstrate that IRIS consistently outperforms existing unsupervised methods. Our approach is fully unsupervised, computationally low cost, and works well even with few training data, making it suitable for real-time detection.