RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
作者: Cheng Niu, Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Randy Zhong, Juntong Song, Tong Zhang
分类: cs.CL
发布日期: 2023-12-31 (更新: 2024-05-17)
💡 一句话要点
RAGTruth:构建幻觉语料库,提升检索增强语言模型的可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 大型语言模型 幻觉检测 语料库构建 人工标注
📋 核心要点
- 检索增强生成(RAG)旨在缓解大型语言模型(LLM)的幻觉问题,但LLM仍可能产生与检索内容不符的声明。
- RAGTruth语料库通过人工标注的RAG生成回复,提供了词级别的幻觉评估,用于开发有效的幻觉预防策略。
- 实验表明,利用RAGTruth微调小型LLM,在幻觉检测任务上可达到与GPT-4等大型模型相当的性能。
📝 摘要(中文)
本文提出了RAGTruth,一个专门用于分析检索增强语言模型(RAG)中词级别幻觉的语料库。该语料库涵盖了不同领域和任务,适用于标准RAG框架下的LLM应用。RAGTruth包含近18,000个由不同LLM使用RAG自然生成的回复,并经过细致的人工标注,包括案例和词级别的幻觉强度评估。论文不仅评估了不同LLM的幻觉频率,还 критически 评估了现有幻觉检测方法的有效性。此外,研究表明,使用像RAGTruth这样的高质量数据集,可以微调一个相对较小的LLM,使其在幻觉检测方面达到与使用GPT-4等先进大型语言模型基于提示的方法相媲美的性能水平。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)框架下,大型语言模型(LLM)仍然存在的幻觉问题。现有方法缺乏有效的幻觉检测和预防机制,并且缺乏高质量的幻觉评估数据集,难以准确衡量和改进RAG系统的可靠性。
核心思路:论文的核心思路是构建一个高质量、细粒度的幻觉语料库RAGTruth,通过人工标注的方式,提供词级别的幻觉评估。利用该语料库,可以更准确地评估现有幻觉检测方法的有效性,并用于微调小型LLM,使其具备更强的幻觉检测能力。
技术框架:RAGTruth的构建流程包括:1) 使用不同的LLM和RAG框架生成回复;2) 对生成的回复进行人工标注,标注内容包括案例级别的幻觉判断和词级别的幻觉强度评估;3) 利用标注好的数据,评估现有幻觉检测方法的性能;4) 使用RAGTruth微调小型LLM,提升其幻觉检测能力。
关键创新:RAGTruth语料库的关键创新在于其细粒度的词级别幻觉标注,这使得可以更精确地分析幻觉的来源和类型。此外,该语料库的构建过程考虑了不同LLM和RAG框架的影响,从而保证了其通用性和代表性。
关键设计:RAGTruth语料库包含了近18,000个自然生成的回复,涵盖了不同的领域和任务。人工标注团队对每个回复进行了细致的评估,标注了每个词是否为幻觉,并给出了幻觉强度评分。在微调小型LLM时,使用了交叉熵损失函数,并针对幻觉检测任务进行了优化。
📊 实验亮点
实验结果表明,RAGTruth语料库能够有效评估不同LLM的幻觉频率,并 критически 评估现有幻觉检测方法的有效性。更重要的是,使用RAGTruth微调的小型LLM在幻觉检测任务上,能够达到与GPT-4等大型模型基于提示的方法相媲美的性能水平,证明了该语料库的价值。
🎯 应用场景
RAGTruth语料库可用于评估和改进各种RAG系统的可靠性,帮助开发者开发更值得信赖的LLM应用。该语料库还可以用于训练幻觉检测模型,提高LLM在知识密集型任务中的准确性和可信度。未来,该研究可以扩展到其他语言和领域,构建更全面的幻觉评估体系。
📄 摘要(原文)
Retrieval-augmented generation (RAG) has become a main technique for alleviating hallucinations in large language models (LLMs). Despite the integration of RAG, LLMs may still present unsupported or contradictory claims to the retrieved contents. In order to develop effective hallucination prevention strategies under RAG, it is important to create benchmark datasets that can measure the extent of hallucination. This paper presents RAGTruth, a corpus tailored for analyzing word-level hallucinations in various domains and tasks within the standard RAG frameworks for LLM applications. RAGTruth comprises nearly 18,000 naturally generated responses from diverse LLMs using RAG. These responses have undergone meticulous manual annotations at both the individual cases and word levels, incorporating evaluations of hallucination intensity. We not only benchmark hallucination frequencies across different LLMs, but also critically assess the effectiveness of several existing hallucination detection methodologies. Furthermore, we show that using a high-quality dataset such as RAGTruth, it is possible to finetune a relatively small LLM and achieve a competitive level of performance in hallucination detection when compared to the existing prompt-based approaches using state-of-the-art large language models such as GPT-4.