Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

作者: Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam

分类: cs.CL

发布日期: 2025-09-27

备注: EMNLP 2025 (Main Conference)

💡 一句话要点

提出CLAIRE系统，用于检测维基百科语料库级别知识不一致性，提升编辑效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识不一致性检测 大型语言模型 维基百科 信息检索 人机协作

📋 核心要点

维基百科作为知识库存在事实不一致问题，影响下游应用，亟需有效检测方法。
提出CLAIRE系统，利用LLM推理和检索，辅助人工识别维基百科中的知识不一致性。
实验表明，CLAIRE能显著提升维基百科编辑的效率和信心，并构建了WIKICOLLIDE基准数据集。

📝 摘要（中文）

维基百科是全球最大的开放知识语料库，被广泛使用，并且是训练大型语言模型（LLM）和检索增强生成（RAG）系统的关键资源。确保其准确性至关重要。本文关注不一致性，一种特殊的factual inaccuracy，并提出了语料库级别不一致性检测的任务。我们提出了CLAIRE，一个agentic系统，它结合了LLM推理和检索，以呈现潜在的不一致性声明以及上下文证据，供人工审查。在一项与经验丰富的维基百科编辑的用户研究中，87.5%的人报告在使用CLAIRE时信心更高，并且参与者在相同的时间内识别出64.7%更多的不一致性。结合CLAIRE和人工标注，我们贡献了WIKICOLLIDE，这是第一个真实的维基百科不一致性基准。通过使用CLAIRE辅助分析的随机抽样，我们发现至少3.3%的英语维基百科事实与另一个事实相矛盾，并且不一致性传播到7.3%的FEVEROUS和4.0%的AmbigQA示例中。在此数据集上对强大的基线进行基准测试显示出巨大的提升空间：最佳的完全自动化系统仅达到75.1%的AUROC。

🔬 方法详解

问题定义：论文旨在解决维基百科中语料库级别的知识不一致性问题。现有方法主要依赖人工审核，效率低下且难以发现隐藏的不一致性。大型语言模型虽然具备一定的知识推理能力，但直接应用于维基百科的规模化不一致性检测仍然面临挑战，例如缺乏针对性的工具和基准。

核心思路：论文的核心思路是结合大型语言模型的推理能力和信息检索技术，构建一个智能代理系统（CLAIRE），辅助人工编辑发现并验证维基百科中的不一致性。通过LLM进行初步的矛盾识别和证据检索，然后将结果呈现给人工编辑进行最终确认，从而提高效率和准确性。

技术框架：CLAIRE系统的整体架构包含以下几个主要模块：1) 声明提取：从维基百科文章中提取事实性声明。2) 矛盾检测：利用LLM对提取的声明进行两两比较，判断是否存在矛盾。3) 证据检索：对于潜在的矛盾声明，从维基百科中检索相关的上下文证据。4) 人工审核：将矛盾声明和证据呈现给人工编辑，进行最终确认和修正。

关键创新：论文的关键创新在于将LLM的推理能力与信息检索技术相结合，构建了一个半自动化的知识不一致性检测系统。此外，论文还构建了WIKICOLLIDE数据集，为该领域的研究提供了基准。

关键设计：CLAIRE系统使用了预训练的大型语言模型（具体模型未知）进行矛盾检测和证据检索。在矛盾检测阶段，采用了基于prompting的方法，引导LLM判断两个声明是否矛盾。证据检索阶段，使用了基于关键词的检索方法，从维基百科中检索与声明相关的文章段落。人工审核界面设计简洁明了，方便编辑快速浏览声明和证据，并做出判断。

📊 实验亮点

用户研究表明，使用CLAIRE后，维基百科编辑的信心提升了87.5%，并且在相同时间内识别出的不一致性增加了64.7%。通过CLAIRE辅助分析，发现至少3.3%的英语维基百科事实存在矛盾。在WIKICOLLIDE数据集上，最佳的自动化系统AUROC仅为75.1%，表明仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于大规模知识库的质量控制，例如维基百科、DBpedia等。通过自动检测和修复知识不一致性，可以提高知识库的准确性和可靠性，从而提升下游应用（如问答系统、知识图谱）的性能。未来，该方法可扩展到其他类型的知识库和语言。

📄 摘要（原文）

Wikipedia is the largest open knowledge corpus, widely used worldwide and serving as a key resource for training large language models (LLMs) and retrieval-augmented generation (RAG) systems. Ensuring its accuracy is therefore critical. But how accurate is Wikipedia, and how can we improve it? We focus on inconsistencies, a specific type of factual inaccuracy, and introduce the task of corpus-level inconsistency detection. We present CLAIRE, an agentic system that combines LLM reasoning with retrieval to surface potentially inconsistent claims along with contextual evidence for human review. In a user study with experienced Wikipedia editors, 87.5% reported higher confidence when using CLAIRE, and participants identified 64.7% more inconsistencies in the same amount of time. Combining CLAIRE with human annotation, we contribute WIKICOLLIDE, the first benchmark of real Wikipedia inconsistencies. Using random sampling with CLAIRE-assisted analysis, we find that at least 3.3% of English Wikipedia facts contradict another fact, with inconsistencies propagating into 7.3% of FEVEROUS and 4.0% of AmbigQA examples. Benchmarking strong baselines on this dataset reveals substantial headroom: the best fully automated system achieves an AUROC of only 75.1%. Our results show that contradictions are a measurable component of Wikipedia and that LLM-based systems like CLAIRE can provide a practical tool to help editors improve knowledge consistency at scale.

Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册