(Fact) Check Your Bias
作者: Eivind Morris Bakke, Nora Winger Heggelund
分类: cs.CL
发布日期: 2025-06-26
🔗 代码/项目: GITHUB
💡 一句话要点
研究语言模型偏见对事实核查结果的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 语言模型 偏见分析 信息检索 自动化系统
📋 核心要点
- 现有的自动事实核查系统在依赖大型语言模型时,面临参数知识偏见的挑战,影响核查结果的准确性。
- 本文通过研究Llama 3.1模型的偏见,提出了分析其对事实核查结果影响的方法,揭示了偏见的来源。
- 实验结果显示,模型在不同提示下的检索结果存在显著差异,且最终裁决在不同策略下保持稳定,展示了偏见的复杂性。
📝 摘要(中文)
自动事实核查系统越来越依赖大型语言模型(LLMs)。本文研究了这些模型中的参数知识偏见如何影响HerO系统(FEVER-25基线)的事实核查结果。我们考察了Llama 3.1的参数知识中的潜在偏见以及故意注入的偏见。当直接提示进行事实核查时,Llama 3.1将近一半的声明标记为“证据不足”。仅使用其参数知识,它能够对剩余一半的声明做出裁决。在第二个实验中,我们提示模型生成支持、反驳或中立的事实核查文档。这些提示显著影响检索结果,约50%的检索证据对每种观点都是独特的。值得注意的是,模型有时拒绝为其认为是虚假的声明生成支持文档,形成内在的负面偏见。尽管检索证据存在差异,最终的裁决预测在不同提示策略下显示出稳定性。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在事实核查中存在的参数知识偏见问题。现有方法未能充分考虑这些偏见对核查结果的影响,导致结果的不一致性和不可靠性。
核心思路:通过对Llama 3.1模型的偏见进行深入分析,本文探讨了如何通过不同的提示策略影响模型的检索结果,从而揭示偏见的存在及其影响。
技术框架:研究分为两个主要实验阶段:第一阶段直接提示模型进行事实核查,第二阶段提示模型生成不同类型的事实核查文档。每个阶段都评估了模型的输出和检索结果。
关键创新:本文的创新在于系统性地分析了语言模型在事实核查中的偏见,尤其是如何通过提示策略影响模型的输出,揭示了偏见的复杂性和影响。
关键设计:在实验中,模型的提示设计至关重要,影响了检索结果的多样性和独特性。模型在面对虚假声明时的拒绝生成支持文档的行为,显示了其内在的负面偏见。具体参数设置和损失函数的选择在实验中也起到了关键作用。
📊 实验亮点
实验结果显示,Llama 3.1在直接提示下将近50%的声明标记为“证据不足”,而在生成支持文档时,模型对虚假声明的拒绝生成行为体现了其内在的负面偏见。尽管检索证据存在差异,最终裁决在不同提示策略下保持稳定,显示出模型在偏见影响下的复杂性。
🎯 应用场景
该研究的潜在应用领域包括新闻媒体、社交网络和在线内容审核等,能够帮助提高信息的真实性和可靠性。通过理解语言模型的偏见,开发者可以设计更为公正和准确的事实核查系统,促进信息透明度和公众信任。
📄 摘要(原文)
Automatic fact verification systems increasingly rely on large language models (LLMs). We investigate how parametric knowledge biases in these models affect fact-checking outcomes of the HerO system (baseline for FEVER-25). We examine how the system is affected by: (1) potential bias in Llama 3.1's parametric knowledge and (2) intentionally injected bias. When prompted directly to perform fact-verification, Llama 3.1 labels nearly half the claims as "Not Enough Evidence". Using only its parametric knowledge it is able to reach a verdict on the remaining half of the claims. In the second experiment, we prompt the model to generate supporting, refuting, or neutral fact-checking documents. These prompts significantly influence retrieval outcomes, with approximately 50\% of retrieved evidence being unique to each perspective. Notably, the model sometimes refuses to generate supporting documents for claims it believes to be false, creating an inherent negative bias. Despite differences in retrieved evidence, final verdict predictions show stability across prompting strategies. The code is available at: https://github.com/eibakke/FEVER-8-Shared-Task