CANDY: Benchmarking LLMs' Limitations and Assistive Potential in Chinese Misinformation Fact-Checking

📄 arXiv: 2509.03957v1 📥 PDF

作者: Ruiling Guo, Xinwei Yang, Chen Huang, Tong Zhang, Yong Hu

分类: cs.CL, cs.AI

发布日期: 2025-09-04

备注: Findings of EMNLP 2025

🔗 代码/项目: GITHUB


💡 一句话要点

CANDY:评估大语言模型在中文虚假信息核查中的局限性与辅助潜力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实核查 中文信息处理 虚假信息检测 基准测试

📋 核心要点

  1. 现有大型语言模型在事实核查方面的能力尚不明确,尤其是在中文虚假信息识别方面。
  2. CANDY基准旨在系统评估LLMs在中文虚假信息核查中的能力,并分析其局限性。
  3. 实验表明,LLMs在事实核查结论生成方面存在局限,但作为辅助工具具有提升人类表现的潜力。

📝 摘要(中文)

尽管大型语言模型(LLMs)的应用日益广泛,但其在核查虚假信息方面的有效性仍不确定。为此,我们提出了CANDY,一个旨在系统评估LLMs在核查中文虚假信息方面的能力和局限性的基准。具体而言,我们精心策划了一个包含约2万个实例的标注数据集。我们的分析表明,即使通过思维链推理和少样本提示等方法增强,当前的LLMs在生成准确的事实核查结论方面仍然存在局限性。为了理解这些局限性,我们开发了一种分类法,用于对LLM生成的结论解释中的缺陷进行分类,并发现捏造事实是最常见的失败模式。虽然单独使用LLMs进行事实核查并不可靠,但我们的研究结果表明,当作为辅助工具部署在实际场景中时,它们具有显著的潜力来增强人类的表现。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在中文虚假信息核查任务中的能力评估问题。现有方法缺乏系统性的基准测试,难以准确衡量LLMs在处理中文特定语言和文化背景下的虚假信息时的表现。此外,现有研究未能充分分析LLMs在事实核查过程中出现的错误类型和原因,阻碍了针对性改进。

核心思路:论文的核心思路是构建一个高质量的中文虚假信息核查基准数据集CANDY,并利用该数据集系统性地评估现有LLMs在事实核查任务中的表现。通过对LLMs生成结果的错误类型进行分类,深入分析其局限性,并探讨LLMs作为辅助工具在提升人类事实核查效率方面的潜力。

技术框架:CANDY基准测试框架主要包含以下几个阶段:1) 数据集构建:收集并标注约2万个中文虚假信息实例,构建高质量的基准数据集。2) 模型评估:利用CANDY数据集评估现有LLMs在事实核查任务中的表现,包括准确率、召回率等指标。3) 错误分析:对LLMs生成的结果进行错误类型分类,分析其局限性。4) 人机协作:探索LLMs作为辅助工具在提升人类事实核查效率方面的潜力。

关键创新:论文的关键创新在于构建了一个大规模、高质量的中文虚假信息核查基准数据集CANDY。该数据集的标注质量高,覆盖了多种类型的中文虚假信息,能够更全面地评估LLMs在中文环境下的事实核查能力。此外,论文还提出了一个错误类型分类体系,能够深入分析LLMs在事实核查过程中出现的错误原因。

关键设计:CANDY数据集的构建过程中,采用了多轮人工标注和专家审核,确保标注质量。在模型评估方面,论文采用了多种评估指标,包括准确率、召回率、F1值等,并对比了不同LLMs的表现。在错误分析方面,论文设计了一个包含多种错误类型的分类体系,例如事实捏造、逻辑错误、信息缺失等,并对LLMs生成的结果进行了详细的错误分析。

📊 实验亮点

实验结果表明,即使采用思维链和少样本提示等技术,现有LLMs在中文虚假信息核查任务中仍存在局限性,尤其是在生成准确的事实核查结论方面。错误分析显示,捏造事实是LLMs最常见的失败模式。然而,研究也发现LLMs作为辅助工具能够显著提升人类事实核查的效率。

🎯 应用场景

该研究成果可应用于提升中文社交媒体平台的内容审核效率,辅助新闻媒体进行事实核查,以及提高公众对虚假信息的辨别能力。未来,可以进一步探索如何利用LLMs生成更可靠的事实核查报告,并开发更智能的虚假信息检测系统。

📄 摘要(原文)

The effectiveness of large language models (LLMs) to fact-check misinformation remains uncertain, despite their growing use. To this end, we present CANDY, a benchmark designed to systematically evaluate the capabilities and limitations of LLMs in fact-checking Chinese misinformation. Specifically, we curate a carefully annotated dataset of ~20k instances. Our analysis shows that current LLMs exhibit limitations in generating accurate fact-checking conclusions, even when enhanced with chain-of-thought reasoning and few-shot prompting. To understand these limitations, we develop a taxonomy to categorize flawed LLM-generated explanations for their conclusions and identify factual fabrication as the most common failure mode. Although LLMs alone are unreliable for fact-checking, our findings indicate their considerable potential to augment human performance when deployed as assistive tools in scenarios. Our dataset and code can be accessed at https://github.com/SCUNLP/CANDY