Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs

📄 arXiv: 2506.09886v1 📥 PDF

作者: Rodion Oblovatny, Alexandra Bazarova, Alexey Zaytsev

分类: cs.CL, cs.AI

发布日期: 2025-06-11


💡 一句话要点

提出基于可训练深度核的注意力头嵌入以检测LLM中的幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 大型语言模型 深度学习 概率分布 模型内在方法 分布距离 可学习核 自然语言处理

📋 核心要点

  1. 现有方法在检测大型语言模型中的幻觉时,往往依赖外部知识或辅助模型,限制了其适用性和灵活性。
  2. 论文提出了一种基于分布距离的模型内在检测方法,利用隐藏状态分布的概率发散来识别幻觉响应。
  3. 实验结果表明,该方法在多个基准测试中表现优异,超越了现有的检测基线,具有较高的准确性和鲁棒性。

📝 摘要(中文)

我们提出了一种新颖的方法,通过分析提示与响应的隐藏状态分布之间的概率发散来检测大型语言模型(LLMs)中的幻觉。出人意料的是,我们发现幻觉响应与其提示之间的偏差小于基于事实的响应,这表明幻觉通常源于表面的重述而非实质性的推理。基于这一见解,我们提出了一种模型内在的检测方法,利用分布距离作为原则性的幻觉评分,消除了对外部知识或辅助模型的需求。为了增强敏感性,我们采用了深度可学习核,能够自动适应以捕捉分布之间的细微几何差异。我们的方法在多个基准测试中超越了现有基线,展示了最先进的性能,即使在没有核训练的情况下,仍然提供了一个稳健、可扩展的幻觉检测解决方案。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型(LLMs)中幻觉检测的挑战。现有方法通常依赖外部知识或辅助模型,导致灵活性不足和适用范围有限。

核心思路:我们提出了一种基于分布距离的检测方法,利用提示与响应的隐藏状态分布之间的概率发散来识别幻觉。研究发现,幻觉响应与提示之间的偏差较小,表明其源于表面重述而非深层推理。

技术框架:该方法的整体架构包括数据预处理、隐藏状态提取、分布距离计算和幻觉评分生成四个主要模块。通过深度可学习核,模型能够自动适应并捕捉分布之间的细微几何差异。

关键创新:本研究的关键创新在于提出了一种模型内在的幻觉检测方法,利用分布距离作为幻觉评分,消除了对外部知识的依赖。这一方法在检测准确性和灵活性上显著优于现有方法。

关键设计:在技术细节上,我们采用了深度学习框架来实现可学习核,设计了适应性损失函数以优化分布距离的计算,确保模型能够有效捕捉到不同响应之间的微小差异。通过这些设计,模型在没有核训练的情况下仍能保持竞争力。

📊 实验亮点

实验结果显示,所提方法在多个基准测试中实现了最先进的性能,超越了现有基线,具体提升幅度达到XX%。即使在没有进行核训练的情况下,方法依然保持了较高的检测准确性,展现出良好的鲁棒性和可扩展性。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全性评估、智能对话系统的质量控制以及自动内容生成的可靠性检测。通过有效识别幻觉,能够提高语言模型在实际应用中的可信度和用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

We present a novel approach for detecting hallucinations in large language models (LLMs) by analyzing the probabilistic divergence between prompt and response hidden-state distributions. Counterintuitively, we find that hallucinated responses exhibit smaller deviations from their prompts compared to grounded responses, suggesting that hallucinations often arise from superficial rephrasing rather than substantive reasoning. Leveraging this insight, we propose a model-intrinsic detection method that uses distributional distances as principled hallucination scores, eliminating the need for external knowledge or auxiliary models. To enhance sensitivity, we employ deep learnable kernels that automatically adapt to capture nuanced geometric differences between distributions. Our approach outperforms existing baselines, demonstrating state-of-the-art performance on several benchmarks. The method remains competitive even without kernel training, offering a robust, scalable solution for hallucination detection.