Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

📄 arXiv: 2603.05471v1 📥 PDF

作者: Artem Vazhentsev, Maria Marina, Daniil Moskovskiy, Sergey Pletenev, Mikhail Seleznyov, Mikhail Salnikov, Elena Tutubalina, Vasily Konovalov, Irina Nikishina, Alexander Panchenko, Viktor Moskvoretskii

分类: cs.CL, cs.AI

发布日期: 2026-03-05

备注: Preprint


💡 一句话要点

提出INTRA方法,利用LLM内部知识进行无需检索的事实核查,实现更强的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实核查 大型语言模型 知识检索 内部表征 泛化能力

📋 核心要点

  1. 现有事实核查方法依赖外部知识检索,易受检索错误和数据可用性限制,未能充分利用LLM的内在事实验证能力。
  2. 论文提出无需检索的事实核查任务,利用LLM的参数化知识直接验证声明,避免对外部信息的依赖。
  3. 实验表明,利用内部模型表征的方法优于基于logits的方法,提出的INTRA方法实现了最先进的性能。

📝 摘要(中文)

本文针对构建于大型语言模型(LLM)之上的智能AI系统的可信度这一核心研究挑战,提出了无需检索的事实核查任务。该任务侧重于验证任意自然语言声明的真实性,而无需依赖外部知识检索。为了研究这一设定,本文构建了一个全面的评估框架,着重考察模型在(i)长尾知识,(ii)声明来源变化,(iii)多语言,以及(iv)长文本生成方面的泛化能力。实验结果表明,基于logits的方法通常不如利用内部模型表征的方法。基于此,本文提出了一种名为INTRA的方法,该方法利用内部表征之间的交互作用,实现了最先进的性能和强大的泛化能力。总而言之,本文将无需检索的事实核查确立为一个有前景的研究方向,可以补充基于检索的框架,提高可扩展性,并支持将此类系统用作训练期间的奖励信号或集成到生成过程中的组件。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)的事实核查问题,特别是当无法或不希望依赖外部知识检索时。现有方法通常依赖于检索外部信息来验证声明的真实性,但这种方法容易受到检索错误、外部数据可用性以及检索过程本身带来的延迟等问题的限制。此外,这些方法未能充分利用LLM自身所蕴含的参数化知识。

核心思路:论文的核心思路是直接利用LLM内部的知识来进行事实核查,而无需依赖外部检索。通过分析和利用LLM内部的表征,模型可以直接判断声明的真实性。这种方法旨在提高事实核查的效率和准确性,并减少对外部资源的依赖。

技术框架:论文提出的INTRA方法的核心在于利用LLM内部表征之间的交互作用。具体来说,该方法首先将输入的声明编码为LLM的内部表征,然后通过特定的机制来分析这些表征之间的关系,从而判断声明的真实性。整体流程包括:声明编码、内部表征提取、表征交互分析和真实性判断。

关键创新:INTRA方法的关键创新在于其利用LLM内部表征交互进行事实核查。与以往主要关注logits或简单表征的方法不同,INTRA深入挖掘了LLM内部不同层次表征之间的复杂关系,从而更准确地判断声明的真实性。这种方法能够更好地捕捉LLM的内在知识,并提高事实核查的泛化能力。

关键设计:INTRA方法的关键设计包括:(1) 使用Transformer结构的LLM作为基础模型;(2) 设计特定的交互机制来分析内部表征之间的关系,例如注意力机制或图神经网络;(3) 使用交叉熵损失函数来训练模型,目标是最小化预测的真实性标签与实际标签之间的差异;(4) 通过实验调整超参数,例如学习率、批大小和隐藏层维度,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,INTRA方法在9个数据集上取得了最先进的性能,并且具有很强的泛化能力,尤其是在长尾知识、不同声明来源、多语言和长文本生成方面。相比于传统的基于logits的方法,INTRA方法能够更好地利用LLM的内部知识,从而提高事实核查的准确性和鲁棒性。具体性能提升幅度未知,但论文强调了其state-of-the-art的地位。

🎯 应用场景

该研究成果可应用于构建更可信赖的AI系统,例如智能助手、聊天机器人和内容生成工具。无需检索的事实核查方法可以提高这些系统在信息验证方面的效率和准确性,减少对外部资源的依赖,并增强用户对系统的信任度。此外,该方法还可以作为训练期间的奖励信号,或集成到生成过程中,以提高生成内容的质量和真实性。

📄 摘要(原文)

Trustworthiness is a core research challenge for agentic AI systems built on Large Language Models (LLMs). To enhance trust, natural language claims from diverse sources, including human-written text, web content, and model outputs, are commonly checked for factuality by retrieving external knowledge and using an LLM to verify the faithfulness of claims to the retrieved evidence. As a result, such methods are constrained by retrieval errors and external data availability, while leaving the models intrinsic fact-verification capabilities largely unused. We propose the task of fact-checking without retrieval, focusing on the verification of arbitrary natural language claims, independent of their source. To study this setting, we introduce a comprehensive evaluation framework focused on generalization, testing robustness to (i) long-tail knowledge, (ii) variation in claim sources, (iii) multilinguality, and (iv) long-form generation. Across 9 datasets, 18 methods and 3 models, our experiments indicate that logit-based approaches often underperform compared to those that leverage internal model representations. Building on this finding, we introduce INTRA, a method that exploits interactions between internal representations and achieves state-of-the-art performance with strong generalization. More broadly, our work establishes fact-checking without retrieval as a promising research direction that can complement retrieval-based frameworks, improve scalability, and enable the use of such systems as reward signals during training or as components integrated into the generation process.