Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

作者: Hongzhan Lin, Zixin Chen, Zhiqi Shen, Ziyang Luo, Zhen Ye, Jing Ma, Tat-Seng Chua, Guandong Xu

分类: cs.CL

发布日期: 2026-01-06

备注: 17 pages, 21 figures, 7 tables

💡 一句话要点

FactArena：提出全面分阶段评测大语言模型在事实核查中表现的自动化框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 事实核查 基准测试 自动化评估 证据检索

📋 核心要点

现有事实核查评估主要关注声明验证，忽略了声明提取和证据检索等环节，无法全面评估LLM的性能。
FactArena提出了一种全自动的竞技场式评估框架，对LLM在完整事实核查流程中进行分阶段基准测试。
FactArena通过实验揭示了静态声明验证准确性与端到端事实核查能力之间的差异，强调了整体评估的必要性。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被部署在现实世界的事实核查系统中，但现有的评估主要集中在声明验证上，忽略了更广泛的事实核查工作流程，包括声明提取和证据检索。这种狭隘的关注点使得目前的基准测试无法揭示现代LLMs的系统性推理失败、事实盲点和鲁棒性限制。为了弥合这一差距，我们提出了FactArena，这是一个全自动的竞技场式评估框架，可以对LLMs在完整的事实核查流程中进行全面的、分阶段的基准测试。FactArena集成了三个关键组件：（i）一个LLM驱动的事实核查流程，该流程标准化了声明分解、通过工具增强交互进行证据检索以及基于理由的结论预测；（ii）一个由统一的参考指南指导的竞技场式判断机制，以确保跨异构判断代理的公正和一致的成对比较；（iii）一个竞技场驱动的声明演化模块，该模块自适应地生成更具挑战性和语义控制的声明，以探测LLMs在固定种子数据之外的事实鲁棒性。在涵盖七个模型系列的16个最先进的LLMs中，FactArena产生了稳定且可解释的排名。我们的分析进一步揭示了静态声明验证准确性和端到端事实核查能力之间的显著差异，突出了整体评估的必要性。所提出的框架为诊断LLMs的事实推理、指导未来的模型开发以及推进LLMs在安全关键的事实核查应用中的可靠部署提供了一个可扩展且值得信赖的范例。

🔬 方法详解

问题定义：现有的大语言模型事实核查评估主要集中在claim verification阶段，忽略了claim extraction和evidence retrieval等环节。这种片面的评估方式无法充分暴露LLM在事实核查流程中的系统性推理错误、知识盲区以及鲁棒性问题，阻碍了LLM在事实核查领域的可靠应用。

核心思路：FactArena的核心思路是构建一个全自动的、分阶段的评估框架，模拟完整的事实核查流程，从而更全面、深入地评估LLM的性能。通过引入竞技场式的评估机制和自适应的claim生成策略，FactArena能够更有效地发现LLM在事实核查任务中的弱点。

技术框架：FactArena包含三个主要模块：(1) LLM驱动的事实核查流程，包括claim分解、工具增强的证据检索和基于理由的结论预测；(2) 竞技场式判断机制，通过统一的参考指南确保跨异构判断代理的公正和一致的成对比较；(3) 竞技场驱动的claim演化模块，自适应地生成更具挑战性和语义控制的claim，以探测LLM的事实鲁棒性。整个流程模拟了真实世界的事实核查场景，能够更准确地反映LLM的实际能力。

关键创新：FactArena的关键创新在于其全面性、自动化和自适应性。它不仅评估LLM的claim verification能力，还评估其claim extraction和evidence retrieval能力。此外，FactArena采用竞技场式的评估机制，能够更有效地比较不同LLM的性能。最重要的是，FactArena能够自适应地生成更具挑战性的claim，从而更深入地探测LLM的事实鲁棒性。

关键设计：FactArena的关键设计包括：(1) 使用LLM进行claim分解，将复杂的claim分解为更小的、更易于处理的子claim；(2) 使用工具增强的证据检索，允许LLM访问外部知识库，从而提高证据检索的准确性；(3) 使用基于理由的结论预测，要求LLM提供支持其结论的理由，从而提高结论的可解释性；(4) 使用成对比较的竞技场式评估机制，能够更有效地比较不同LLM的性能；(5) 使用基于对抗样本生成的claim演化模块，自适应地生成更具挑战性的claim。

🖼️ 关键图片

📊 实验亮点

FactArena在16个最先进的LLM上进行了评估，涵盖了7个模型系列，结果表明，静态声明验证准确性与端到端事实核查能力之间存在显著差异。该框架能够产生稳定且可解释的模型排名，并揭示LLM在事实核查流程中的弱点，为未来的模型改进提供了重要依据。

🎯 应用场景

FactArena可应用于评估和改进大语言模型在信息安全、新闻媒体、舆情分析等领域的应用。通过全面评估LLM的事实核查能力，可以提高信息的可信度，减少虚假信息的传播，并为安全关键应用提供更可靠的保障。该框架还可用于指导LLM的未来发展，使其在事实核查方面更加准确和可靠。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in real-world fact-checking systems, yet existing evaluations focus predominantly on claim verification and overlook the broader fact-checking workflow, including claim extraction and evidence retrieval. This narrow focus prevents current benchmarks from revealing systematic reasoning failures, factual blind spots, and robustness limitations of modern LLMs. To bridge this gap, we present FactArena, a fully automated arena-style evaluation framework that conducts comprehensive, stage-wise benchmarking of LLMs across the complete fact-checking pipeline. FactArena integrates three key components: (i) an LLM-driven fact-checking process that standardizes claim decomposition, evidence retrieval via tool-augmented interactions, and justification-based verdict prediction; (ii) an arena-styled judgment mechanism guided by consolidated reference guidelines to ensure unbiased and consistent pairwise comparisons across heterogeneous judge agents; and (iii) an arena-driven claim-evolution module that adaptively generates more challenging and semantically controlled claims to probe LLMs' factual robustness beyond fixed seed data. Across 16 state-of-the-art LLMs spanning seven model families, FactArena produces stable and interpretable rankings. Our analyses further reveal significant discrepancies between static claim-verification accuracy and end-to-end fact-checking competence, highlighting the necessity of holistic evaluation. The proposed framework offers a scalable and trustworthy paradigm for diagnosing LLMs' factual reasoning, guiding future model development, and advancing the reliable deployment of LLMs in safety-critical fact-checking applications.

Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册