Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning

📄 arXiv: 2312.17484v2 📥 PDF

作者: Zhongzhi Chen, Xingwu Sun, Xianfeng Jiao, Fengzong Lian, Zhanhui Kang, Di Wang, Cheng-Zhong Xu

分类: cs.CL, cs.AI

发布日期: 2023-12-29 (更新: 2024-01-14)

备注: Accepted as AAAI 2024


💡 一句话要点

Truth Forest:通过无微调干预提升大语言模型的多尺度真实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 真实性 幻觉 正交探针 无微调干预

📋 核心要点

  1. 大语言模型虽然在各种任务中取得了巨大成功,但仍然存在生成幻觉的问题,降低了其可靠性。
  2. Truth Forest通过多维正交探针揭示隐藏的真实表示,并引入Random Peek技术来缩小辨别和生成真实特征之间的差距。
  3. 实验结果表明,该方法显著提高了LLM的真实性,例如在TruthfulQA数据集上,Llama-2-7B的真实性从40.8%提升到74.5%。

📝 摘要(中文)

本文提出Truth Forest,一种通过揭示隐藏的真实表示来增强大语言模型(LLMs)真实性的方法,该方法利用多维正交探针。具体来说,它通过将正交约束纳入探针,为建模真实性创建多个正交基。此外,本文还引入了Random Peek,一种系统性的技术,考虑序列中更广泛的位置范围,从而缩小了LLM中辨别和生成真实特征之间的差距。通过采用这种方法,在TruthfulQA上,Llama-2-7B的真实性从40.8%提高到74.5%。同样,在微调模型中也观察到显著的改进。本文使用探针彻底分析了真实特征。可视化结果表明,正交探针捕获了互补的与真实性相关的特征,形成了定义明确的聚类,揭示了数据集的内在结构。

🔬 方法详解

问题定义:大语言模型(LLMs)在生成文本时容易产生幻觉,即生成不真实或与事实相悖的内容。现有方法通常需要对模型进行微调,计算成本高昂,且可能影响模型在其他任务上的性能。因此,如何在不进行微调的情况下提高LLM的真实性是一个重要的研究问题。

核心思路:Truth Forest的核心思路是通过探针(probes)来揭示LLM内部隐藏的真实表示。具体来说,它训练多个正交的探针,每个探针负责捕捉不同维度的真实性特征。通过正交约束,确保探针之间提取的特征互补,从而更全面地理解LLM对真实信息的编码方式。此外,Random Peek技术旨在解决LLM在辨别和生成真实信息时存在的差异,通过在更广泛的序列位置上进行采样,提高探针的有效性。

技术框架:Truth Forest主要包含以下几个阶段:1) 正交探针训练:构建多个正交的线性探针,利用真实性数据集训练这些探针,使其能够预测输入文本的真实性。2) Random Peek:在训练和推理过程中,从序列的不同位置随机选择token的表示作为探针的输入,以提高探针的泛化能力。3) 真实性预测:利用训练好的正交探针,对LLM生成的文本进行真实性评估。通过集成多个探针的预测结果,得到最终的真实性得分。

关键创新:Truth Forest的关键创新在于:1) 多维正交探针:通过引入正交约束,确保探针能够捕捉到互补的真实性特征,从而更全面地理解LLM的真实表示。2) Random Peek:通过在更广泛的序列位置上进行采样,提高探针的泛化能力,从而更好地解决LLM在辨别和生成真实信息时存在的差异。3) 无微调干预:该方法无需对LLM进行微调,降低了计算成本,并避免了对模型其他性能的影响。

关键设计:1) 正交约束:在探针的训练过程中,引入正交损失函数,确保探针之间的权重向量相互正交。2) Random Peek采样策略:设计合理的采样策略,确保能够覆盖序列中不同位置的token表示。3) 探针集成方法:采用加权平均或投票等方式,将多个探针的预测结果进行集成,得到最终的真实性得分。

📊 实验亮点

实验结果表明,Truth Forest能够显著提高LLM的真实性。在TruthfulQA数据集上,Llama-2-7B的真实性从40.8%提高到74.5%,提升幅度显著。此外,该方法在微调模型上也取得了类似的改进。可视化结果表明,正交探针能够捕捉到互补的真实性特征,并形成定义明确的聚类,验证了该方法的有效性。

🎯 应用场景

Truth Forest具有广泛的应用前景,可以应用于各种需要LLM生成可靠信息的场景,例如:智能客服、新闻生成、医疗诊断等。通过提高LLM的真实性,可以减少虚假信息的传播,提高用户对LLM的信任度,并促进LLM在更多领域的应用。未来,该方法可以进一步扩展到其他类型的LLM,并与其他技术相结合,以实现更强大的真实性增强效果。

📄 摘要(原文)

Despite the great success of large language models (LLMs) in various tasks, they suffer from generating hallucinations. We introduce Truth Forest, a method that enhances truthfulness in LLMs by uncovering hidden truth representations using multi-dimensional orthogonal probes. Specifically, it creates multiple orthogonal bases for modeling truth by incorporating orthogonal constraints into the probes. Moreover, we introduce Random Peek, a systematic technique considering an extended range of positions within the sequence, reducing the gap between discerning and generating truth features in LLMs. By employing this approach, we improved the truthfulness of Llama-2-7B from 40.8\% to 74.5\% on TruthfulQA. Likewise, significant improvements are observed in fine-tuned models. We conducted a thorough analysis of truth features using probes. Our visualization results show that orthogonal probes capture complementary truth-related features, forming well-defined clusters that reveal the inherent structure of the dataset.