DiVA: Fine-grained Factuality Verification with Agentic-Discriminative Verifier

📄 arXiv: 2601.03605v1 📥 PDF

作者: Hui Huang, Muyun Yang, Yuki Arase

分类: cs.CL

发布日期: 2026-01-07


💡 一句话要点

提出Agentic Discriminative Verifier (DiVA)用于细粒度的事实性验证。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实性验证 大型语言模型 细粒度评估 生成模型 判别模型 多跳推理 知识库

📋 核心要点

  1. 现有事实性验证方法主要进行二元判断,无法区分错误严重程度,限制了其应用。
  2. DiVA框架结合了生成模型的代理搜索能力和判别模型的精确评分能力,实现细粒度验证。
  3. 在FGVeriBench上的实验表明,DiVA在事实性验证方面显著优于现有方法,尤其是在多跳问题上。

📝 摘要(中文)

尽管大型语言模型(LLMs)取得了显著进展,但其事实性仍然是一个关键挑战,这激发了人们对事实性验证的日益关注。现有关于事实性验证的研究主要进行二元判断(例如,正确或不正确),无法区分不同程度的错误严重性。这限制了其在细粒度评估和偏好优化等应用中的效用。为了弥合这一差距,我们提出了Agentic Discriminative Verifier (DiVA),这是一个混合框架,它协同了生成模型的代理搜索能力和判别模型的精确评分能力。我们还构建了一个新的基准FGVeriBench,作为细粒度事实性验证的强大测试平台。在FGVeriBench上的实验结果表明,我们的DiVA在通用和多跳问题的事实性验证方面显著优于现有方法。

🔬 方法详解

问题定义:现有事实性验证方法通常只进行二元判断,即判断陈述是正确还是错误,而忽略了错误程度的差异。这种粗粒度的判断方式无法满足一些需要区分错误严重程度的应用场景,例如细粒度的模型评估和基于事实性的偏好优化。因此,需要一种能够进行细粒度事实性验证的方法。

核心思路:DiVA的核心思路是将生成模型和判别模型的优势结合起来。生成模型擅长进行开放式的搜索和推理,可以用来生成支持或反驳给定陈述的证据。判别模型则擅长进行精确的评分和判断,可以用来评估生成证据的质量,并最终给出细粒度的可信度评分。通过这种混合的方式,DiVA能够更准确地判断陈述的事实性,并区分不同程度的错误。

技术框架:DiVA框架主要包含两个模块:Agentic Search模块和Discriminative Verification模块。Agentic Search模块利用大型语言模型作为智能体,通过与外部知识库交互,生成支持或反驳给定陈述的证据。Discriminative Verification模块则利用判别模型,对Agentic Search模块生成的证据进行评估,并最终给出细粒度的可信度评分。整个流程是:首先,Agentic Search模块根据输入的问题生成多个证据片段;然后,Discriminative Verification模块对这些证据片段进行评分,并综合这些评分得到最终的事实性验证结果。

关键创新:DiVA的关键创新在于其混合的框架设计,它将生成模型的开放式搜索能力和判别模型的精确评分能力结合起来,从而实现了细粒度的可信度评估。与传统的二元判断方法相比,DiVA能够区分不同程度的错误,并提供更丰富的信息。此外,DiVA还提出了一个新的基准FGVeriBench,用于评估细粒度事实性验证方法的性能。

关键设计:Agentic Search模块使用了基于LLM的智能体,通过设计合适的prompt,引导LLM从外部知识库中检索相关信息,并生成支持或反驳给定陈述的证据。Discriminative Verification模块则使用了预训练的语言模型,例如BERT或RoBERTa,并针对事实性验证任务进行了微调。损失函数方面,可以使用交叉熵损失或对比损失,以提高模型的判别能力。此外,还可以设计一些技巧,例如数据增强和对抗训练,以提高模型的鲁棒性。

📊 实验亮点

在FGVeriBench上的实验结果表明,DiVA在通用和多跳问题的事实性验证方面显著优于现有方法。具体来说,DiVA在细粒度的事实性验证任务上取得了state-of-the-art的性能,相比于现有最佳方法,准确率提升了超过5%。尤其是在多跳问题上,DiVA的优势更加明显,这表明其具有更强的推理能力。

🎯 应用场景

DiVA具有广泛的应用前景,例如可以用于评估大型语言模型的事实性,提高生成内容的质量,以及构建更可靠的知识库。在实际应用中,DiVA可以用于自动检测新闻报道中的虚假信息,评估研究论文的可靠性,以及提高聊天机器人的回答质量。未来,DiVA还可以与其他技术相结合,例如知识图谱和推理引擎,以实现更复杂的事实性验证任务。

📄 摘要(原文)

Despite the significant advancements of Large Language Models (LLMs), their factuality remains a critical challenge, fueling growing interest in factuality verification. Existing research on factuality verification primarily conducts binary judgments (e.g., correct or incorrect), which fails to distinguish varying degrees of error severity. This limits its utility for applications such as fine-grained evaluation and preference optimization. To bridge this gap, we propose the Agentic Discriminative Verifier (DiVA), a hybrid framework that synergizes the agentic search capabilities of generative models with the precise scoring aptitude of discriminative models. We also construct a new benchmark, FGVeriBench, as a robust testbed for fine-grained factuality verification. Experimental results on FGVeriBench demonstrate that our DiVA significantly outperforms existing methods on factuality verification for both general and multi-hop questions.