Hallucination Detection with Small Language Models

📄 arXiv: 2506.22486v1 📥 PDF

作者: Ming Cheung

分类: cs.CL, cs.AI

发布日期: 2025-06-24

期刊: Hallucination Detection with Small Language Models, IEEE International Conference on Data Engineering (ICDE), Workshop, 2025


💡 一句话要点

提出小型语言模型框架以检测大语言模型的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 幻觉检测 答案验证 小型模型 向量化数据库 机器学习 自然语言处理

📋 核心要点

  1. 现有的大型语言模型在生成回答时可能出现幻觉现象,导致其可靠性下降,尤其是在缺乏真实答案的情况下。
  2. 本论文提出了一种新颖的框架,利用多个小型语言模型对LLMs生成的回答进行验证,增强了回答的可信度。
  3. 通过实验证明,该框架在检测正确回答方面的F1分数提高了10%,显示出小型语言模型在答案验证中的有效性。

📝 摘要(中文)

自从ChatGPT的推出以来,大型语言模型(LLMs)在回答问题等多项任务中展现了显著的实用性。然而,LLMs生成的回答中可能存在幻觉现象,这会削弱其在实际应用中的可靠性,尤其是在缺乏真实答案的情况下。本论文提出了一种框架,整合多个小型语言模型,通过从向量化数据库中检索的上下文来验证LLMs生成的回答。通过将回答分解为单个句子,并利用多个模型输出中生成“是”令牌的概率,能够有效检测幻觉。实验结果表明,该框架在检测正确回答方面的F1分数提高了10%,证明了小型语言模型在答案验证中的有效性,为学术和实际应用提供了可扩展且高效的解决方案。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型生成回答时的幻觉现象,现有方法在缺乏真实答案的情况下难以检测这些幻觉,影响了模型的可靠性。

核心思路:论文提出的框架通过整合多个小型语言模型,利用从向量化数据库中检索的上下文来验证LLMs生成的回答,增强了回答的准确性和可信度。

技术框架:整体架构包括多个小型语言模型,这些模型对LLMs生成的回答进行独立验证。具体流程为:首先检索相关上下文,然后将LLMs的回答分解为单个句子,最后通过计算生成“是”令牌的概率来判断回答的真实性。

关键创新:该研究的创新点在于通过多个小型语言模型的集成,提供了一种新的答案验证机制,与传统的单一模型方法相比,显著提高了幻觉检测的准确性。

关键设计:在模型设计中,关键参数包括小型语言模型的选择、句子分解策略以及生成“是”令牌的概率计算方法,这些设计共同构成了有效的验证流程。

📊 实验亮点

实验结果显示,提出的框架在检测正确回答方面的F1分数提高了10%,相较于幻觉检测表现出显著的优势。这一提升表明,多个小型语言模型的集成在答案验证中具有良好的效果,提供了一个可扩展的解决方案。

🎯 应用场景

该研究的潜在应用场景包括智能问答系统、在线客服、教育辅助工具等领域。通过提高回答的可靠性,该框架能够为用户提供更准确的信息,增强用户体验。此外,未来可能在其他需要高可信度回答的应用中发挥重要作用。

📄 摘要(原文)

Since the introduction of ChatGPT, large language models (LLMs) have demonstrated significant utility in various tasks, such as answering questions through retrieval-augmented generation. Context can be retrieved using a vectorized database, serving as a foundation for LLMs to generate responses. However, hallucinations in responses can undermine the reliability of LLMs in practical applications, and they are not easily detectable in the absence of ground truth, particularly in question-and-answer scenarios. This paper proposes a framework that integrates multiple small language models to verify responses generated by LLMs using the retrieved context from a vectorized database. By breaking down the responses into individual sentences and utilizing the probability of generating "Yes" tokens from the outputs of multiple models for a given set of questions, responses, and relevant context, hallucinations can be detected. The proposed framework is validated through experiments with real datasets comprising over 100 sets of questions, answers, and contexts, including responses with fully and partially correct sentences. The results demonstrate a 10\% improvement in F1 scores for detecting correct responses compared to hallucinations, indicating that multiple small language models can be effectively employed for answer verification, providing a scalable and efficient solution for both academic and practical applications.