HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

📄 arXiv: 2603.05828v1 📥 PDF

作者: Shize Liang, Hongzhi Wang

分类: cs.CL

发布日期: 2026-03-06


💡 一句话要点

HART:数据驱动的大语言模型幻觉溯源与证据追踪框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉归因 证据检索 因果追踪 可解释性 知识密集型任务

📋 核心要点

  1. 现有幻觉归因方法难以建立幻觉类型、错误机制和外部证据间的结构化对应关系,限制了可解释性和可追溯性。
  2. HART框架将幻觉追踪形式化为片段定位、机制归因、证据检索和因果追踪四个阶段的结构化建模任务。
  3. 实验结果表明,HART显著优于BM25和DPR等基线模型,验证了其在幻觉分析和证据对齐方面的有效性。

📝 摘要(中文)

大型语言模型(LLMs)在文本生成和知识密集型问答方面表现出了卓越的性能。然而,它们容易产生幻觉内容,这严重损害了它们在高风险应用领域中的可靠性。现有的幻觉归因方法,无论是基于外部知识检索还是内部模型机制,主要侧重于语义相似性匹配或表征层面的区分。因此,它们难以在幻觉类型、底层错误生成机制和外部事实证据之间建立跨越片段级别的结构化对应关系,从而限制了幻觉片段的可解释性和支持或反对证据的可追溯性。为了解决这些限制,我们提出了HART,一个用于大型语言模型的细粒度幻觉归因和证据检索框架。HART将幻觉追踪形式化为一个结构化建模任务,包括四个阶段:片段定位、机制归因、证据检索和因果追踪。基于此,我们开发了第一个专门为幻觉追踪定制的结构化数据集,其中幻觉类型、错误机制和反事实证据集被联合标注,以实现因果级别的可解释性评估。在提出的数据集上的实验结果表明,HART显著优于包括BM25和DPR在内的强大检索基线,验证了所提出的追踪范式在幻觉分析和证据对齐方面的有效性和泛化能力。

🔬 方法详解

问题定义:大型语言模型容易产生幻觉内容,降低了其在高风险应用中的可靠性。现有方法主要关注语义相似性或表征层面的区分,缺乏对幻觉类型、错误生成机制和外部证据之间结构化对应关系的建模,导致可解释性和可追溯性不足。

核心思路:HART的核心思路是将幻觉追踪分解为四个结构化的阶段,从而实现细粒度的幻觉归因和证据检索。通过显式地建模片段定位、机制归因、证据检索和因果追踪,HART能够更好地理解幻觉的产生原因,并找到支持或反对该幻觉的证据。

技术框架:HART框架包含四个主要阶段:1) 片段定位:识别生成文本中可能存在幻觉的片段。2) 机制归因:确定导致该幻觉片段产生的潜在错误生成机制。3) 证据检索:从外部知识源检索与该片段相关的证据。4) 因果追踪:分析检索到的证据,判断其是否支持或反对该幻觉片段,并建立因果关系。

关键创新:HART的关键创新在于其结构化的幻觉追踪范式,它将幻觉分析分解为多个可解释的步骤,并显式地建模了幻觉类型、错误机制和外部证据之间的关系。此外,论文还构建了一个专门用于幻觉追踪的结构化数据集,该数据集包含幻觉类型、错误机制和反事实证据的联合标注,为因果级别的可解释性评估提供了基础。

关键设计:HART的具体实现细节取决于所使用的模型和数据集。例如,片段定位可以使用序列标注模型,机制归因可以使用分类模型,证据检索可以使用检索模型。关键在于如何设计这些模型,使其能够有效地捕捉幻觉类型、错误机制和外部证据之间的关系。论文中可能使用了特定的损失函数来优化模型的性能,例如对比学习损失或交叉熵损失。具体的网络结构和参数设置需要在论文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HART在幻觉追踪任务上显著优于包括BM25和DPR在内的强基线模型。具体提升幅度未知,但论文强调了HART在幻觉分析和证据对齐方面的有效性和泛化能力。该结果验证了所提出的结构化追踪范式的优越性,并为未来的幻觉研究提供了新的方向。

🎯 应用场景

HART的研究成果可应用于提升大型语言模型在知识密集型任务中的可靠性,例如医疗诊断、法律咨询和金融分析等领域。通过提供幻觉溯源和证据追踪能力,HART可以帮助用户更好地理解和信任LLM的输出,并减少因幻觉内容造成的潜在风险。未来,该技术还可以用于改进LLM的训练过程,从而减少幻觉的产生。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable performance in text generation and knowledge-intensive question answering. Nevertheless, they are prone to producing hallucinated content, which severely undermines their reliability in high-stakes application domains. Existing hallucination attribution approaches, based on either external knowledge retrieval or internal model mechanisms, primarily focus on semantic similarity matching or representation-level discrimination. As a result, they have difficulty establishing structured correspondences at the span level between hallucination types, underlying error generation mechanisms, and external factual evidence, thereby limiting the interpretability of hallucinated fragments and the traceability of supporting or opposing evidence. To address these limitations, we propose HART, a fine-grained hallucination attribution and evidence retrieval framework for large language models. HART formalizes hallucination tracing as a structured modeling task comprising four stages: span localization, mechanism attribution, evidence retrieval, and causal tracing. Based upon this formulation, we develop the first structured dataset tailored for hallucination tracing, in which hallucination types, error mechanisms, and sets of counterfactual evidence are jointly annotated to enable causal-level interpretability evaluation. Experimental results on the proposed dataset demonstrate that HART substantially outperforms strong retrieval baselines, including BM25 and DPR, validating the effectiveness and generalization capability of the proposed tracing paradigm for hallucination analysis and evidence alignment.