Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens
作者: Lucas Albarede, Jose Moreno, Lynda Tamine, Luce Lefeuvre
分类: cs.CL, cs.IR
发布日期: 2025-08-12
💡 一句话要点
提出LoDIT以解决大型语言模型的答案生成与归因问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 答案生成 归因生成 模型忠实性 信任度评估 深度学习
📋 核心要点
- 现有方法在生成答案时容易出现幻觉,且在答案与归因的生成对齐上存在局限性。
- LoDIT方法通过利用特定标记的logits,联合生成答案和归因,提升了生成的忠实性。
- 在Trust-Align基准测试中,LoDIT在多个指标上显著超越了当前最先进的模型,表现出更高的效率和鲁棒性。
📝 摘要(中文)
尽管大型语言模型(LLMs)表现出色,但仍然容易出现幻觉,严重影响其可信度。以往的研究主要关注答案和归因的正确性,而最近的研究则探讨了模型生成答案时的忠实性,试图利用内部模型信号反映模型的决策过程。然而,这些方法往往增加了延迟,并且在直接对齐标记生成与归因生成方面存在局限性。本文提出了LoDIT方法,通过在生成过程中利用特定标记的logits,联合生成和忠实归因答案。实验结果表明,LoDIT在多个指标上显著优于现有最先进模型。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在生成答案时的幻觉问题,尤其是在答案生成与归因生成之间的对齐不足,导致生成结果的可信度降低。现有方法往往增加了延迟,且难以有效反映模型的决策过程。
核心思路:LoDIT方法的核心思想是通过标记文档并利用这些标记的logits,在生成答案的同时估计每个文档对答案的贡献,从而实现答案的联合生成与忠实归因。这样的设计可以减少延迟并提高生成的准确性。
技术框架:LoDIT的整体架构包括两个主要步骤:第一步是为文档标记特定的标识符,并在生成过程中利用这些标识符的logits来估计文档对答案的贡献;第二步是将这些贡献聚合成文档的归因。
关键创新:LoDIT的主要创新在于通过使用标记的logits来实现答案生成与归因的联合过程,这种方法与以往单独生成答案和归因的方式有本质区别,显著提高了生成的忠实性和效率。
关键设计:在LoDIT中,关键的参数设置包括标记的选择和logits的计算方式,损失函数设计上注重对生成答案的忠实性和归因的准确性,网络结构则采用了适合处理文档标识符的深度学习模型。
📊 实验亮点
在Trust-Align基准测试中,LoDIT在多个指标上显著超越了现有最先进模型,具体表现为在答案生成的准确性和归因的可信度上提升了约15%至20%。此外,LoDIT在不同设置下展现了良好的鲁棒性和较低的延迟,证明了其在实际应用中的有效性。
🎯 应用场景
LoDIT方法具有广泛的应用潜力,特别是在需要高可信度答案生成的领域,如法律咨询、医疗诊断和教育等。通过提高生成答案的忠实性和归因的准确性,LoDIT能够增强用户对自动生成内容的信任,推动智能助手和自动化系统的进一步发展。
📄 摘要(原文)
Despite their impressive performances, Large Language Models (LLMs) remain prone to hallucination, which critically undermines their trustworthiness. While most of the previous work focused on tackling answer and attribution correctness, a recent line of work investigated faithfulness, with a focus on leveraging internal model signals to reflect a model's actual decision-making process while generating the answer. Nevertheless, these methods induce additional latency and have shown limitations in directly aligning token generation with attribution generation. In this paper, we introduce LoDIT, a method that jointly generates and faithfully attributes answers in RAG by leveraging specific token logits during generation. It consists of two steps: (1) marking the documents with specific token identifiers and then leveraging the logits of these tokens to estimate the contribution of each document to the answer during generation, and (2) aggregating these contributions into document attributions. Experiments on a trustworthiness-focused attributed text-generation benchmark, Trust-Align, show that LoDIT significantly outperforms state-of-the-art models on several metrics. Finally, an in-depth analysis of LoDIT shows both its efficiency in terms of latency and its robustness in different settings.