Alleviating Hallucinations of Large Language Models through Induced Hallucinations

📄 arXiv: 2312.15710v2 📥 PDF

作者: Yue Zhang, Leyang Cui, Wei Bi, Shuming Shi

分类: cs.CL, cs.AI

发布日期: 2023-12-25 (更新: 2024-03-11)

备注: Work in progress


💡 一句话要点

提出诱导-对比解码策略,缓解大型语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉缓解 对比解码 事实性 知识问答

📋 核心要点

  1. 大型语言模型存在生成不准确或虚假信息的“幻觉”问题,影响其可靠性。
  2. 论文提出“诱导-对比解码”策略,通过诱导幻觉并进行惩罚,提升模型生成内容的真实性。
  3. 实验表明,该方法能有效提升LLM的事实性,使Llama2-7B-Chat和Mistral-7B-Instruct达到与ChatGPT和GPT4相当的水平。

📝 摘要(中文)

大型语言模型(LLM)虽然能力强大,但常生成包含不准确或捏造信息的回复,即“幻觉”。本文提出一种简单的“诱导-对比”解码(ICD)策略来缓解幻觉。首先,通过诱导原始LLM产生幻觉,构建一个事实性较弱的LLM。然后,在解码过程中惩罚这些诱导的幻觉,以增强生成内容的真实性。具体而言,通过对比解码,放大原始模型的预测,同时降低诱导的不真实预测,从而确定最终的下一个token预测。在基于判别和生成的幻觉评估基准(如TruthfulQA和FActScore)上的实验结果表明,所提出的ICD方法可以有效提高各种模型大小和系列的LLM的事实性。例如,配备ICD的Llama2-7B-Chat和Mistral-7B-Instruct在TruthfulQA上的性能分别与ChatGPT和GPT4相当。

🔬 方法详解

问题定义:大型语言模型在生成文本时,经常出现“幻觉”现象,即生成与事实不符的信息。现有方法难以有效抑制这种幻觉,导致模型在需要高可信度的场景下应用受限。

核心思路:核心思想是“以毒攻毒”。首先,通过某种方式诱导原始模型产生更多的幻觉,从而创建一个“易幻觉”的模型。然后,在解码过程中,利用原始模型和“易幻觉”模型的预测结果进行对比,抑制“易幻觉”模型倾向于产生的错误信息,从而提高生成文本的真实性。这样设计的目的是让模型学会区分真实信息和容易产生幻觉的信息。

技术框架:整体框架包含两个主要步骤:1) 幻觉诱导阶段:通过某种策略(具体方法未知,论文中未详细说明如何诱导)使原始LLM产生更多幻觉,得到一个“易幻觉”的LLM。2) 对比解码阶段:在生成文本时,同时使用原始LLM和“易幻觉”LLM进行预测。对于每个token,通过对比两个模型的预测结果,放大原始LLM的预测概率,同时降低“易幻觉”LLM的预测概率,从而得到最终的token预测结果。

关键创新:关键创新在于“诱导-对比”的思路。不同于直接尝试抑制幻觉,该方法首先主动诱导幻觉,然后利用诱导的幻觉来指导模型的解码过程,从而提高生成文本的真实性。这种方法的核心在于利用模型自身产生的幻觉作为一种负反馈信号,从而提高模型的自我纠错能力。

关键设计:论文中对比解码的具体实现方式未知,但可以推测其关键设计在于如何有效地对比原始模型和“易幻觉”模型的预测结果。可能的实现方式包括:1) 对两个模型的预测概率进行加权平均,其中原始模型的权重较高,而“易幻觉”模型的权重较低。2) 使用某种损失函数来惩罚“易幻觉”模型倾向于产生的token。3) 通过某种机制来动态调整两个模型的权重,使其能够根据不同的输入自适应地调整。

📊 实验亮点

实验结果表明,该方法在TruthfulQA和FActScore等基准测试中取得了显著的性能提升。例如,配备ICD的Llama2-7B-Chat和Mistral-7B-Instruct在TruthfulQA上的性能分别与ChatGPT和GPT4相当,表明该方法能够有效缓解大型语言模型的幻觉问题,并使其性能达到甚至超过一些更强大的模型。

🎯 应用场景

该研究成果可应用于各种需要高可信度的大型语言模型应用场景,例如:智能客服、新闻生成、知识问答、医疗诊断等。通过降低模型产生幻觉的可能性,可以提高用户对模型的信任度,并减少因错误信息带来的负面影响。未来,该方法可以进一步推广到其他类型的生成模型中,提高生成内容的质量和可靠性。

📄 摘要(原文)

Despite their impressive capabilities, large language models (LLMs) have been observed to generate responses that include inaccurate or fabricated information, a phenomenon commonly known as ``hallucination''. In this work, we propose a simple \textit{Induce-then-Contrast} Decoding (ICD) strategy to alleviate hallucinations. We first construct a factually weak LLM by inducing hallucinations from the original LLMs. Then, we penalize these induced hallucinations during decoding to enhance the factuality of the generated content. Concretely, we determine the final next-token predictions by amplifying the predictions from the original model and downplaying the induced untruthful predictions via contrastive decoding. Experimental results on both discrimination-based and generation-based hallucination evaluation benchmarks, such as TruthfulQA and \textsc{FActScore}, demonstrate that our proposed ICD methods can effectively enhance the factuality of LLMs across various model sizes and families. For example, when equipped with ICD, Llama2-7B-Chat and Mistral-7B-Instruct achieve performance comparable to ChatGPT and GPT4 on TruthfulQA, respectively.