Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection
作者: Ivan Vykopal, Antonia Karamolegkou, Jaroslav Kopčan, Qiwei Peng, Tomáš Javůrek, Michal Gregor, Marián Šimko
分类: cs.CL
发布日期: 2025-09-29
💡 一句话要点
研究多语言预训练模型在跨语言事实核查中的语言和检索偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 事实核查 语言偏差 检索偏差 跨语言学习 自然语言处理 信息检索
📋 核心要点
- 现有跨语言事实核查方法在低资源语言上表现不佳,存在显著的语言偏差。
- 通过多语言提示策略,研究不同LLM在多种语言上的性能差异,揭示语言偏差的模式。
- 分析信息检索过程中的检索偏差,发现热门声明被过度检索,影响事实核查的公平性。
📝 摘要(中文)
多语言大型语言模型(LLMs)为跨语言事实核查提供了强大的能力。然而,这些模型通常表现出语言偏差,即在高资源语言(如英语)上的表现明显优于低资源语言。本文还提出并研究了一个新概念——检索偏差,即信息检索系统倾向于偏袒某些信息,导致检索过程出现偏差。本文研究了先前事实核查声明检测(PFCD)中的语言和检索偏差。我们使用完全多语言的提示策略,利用AMC-16K数据集,评估了20种语言的六个开源多语言LLM。通过将任务提示翻译成每种语言,我们揭示了单语和跨语性能的差异,并根据模型系列、大小和提示策略确定了关键趋势。我们的发现突出了LLM行为中持续存在的偏差,并为提高多语言事实核查的公平性提供了建议。为了研究检索偏差,我们采用了多语言嵌入模型,并研究了检索到的声明的频率。我们的分析表明,某些声明在不同的帖子中被不成比例地检索,导致热门声明的检索性能虚高,而不太常见的声明则被低估。
🔬 方法详解
问题定义:本文旨在解决多语言环境下,先前经过事实核查的声明检测任务中存在的语言偏差和检索偏差问题。现有方法在处理低资源语言时性能显著下降,并且信息检索系统可能存在偏好,导致某些声明被过度检索,而另一些声明则被忽略,从而影响事实核查的准确性和公平性。
核心思路:本文的核心思路是通过多语言提示策略,系统性地评估不同多语言LLM在多种语言上的性能,从而揭示语言偏差的模式。同时,通过分析检索到的声明的频率,量化检索偏差的影响。通过这种方式,可以更好地理解偏差的来源,并为改进多语言事实核查系统提供指导。
技术框架:本文的技术框架主要包括以下几个阶段:1) 数据集准备:使用AMC-16K数据集,该数据集包含多种语言的事实核查声明。2) 模型选择:选择六个开源多语言LLM进行评估。3) 提示策略:采用完全多语言的提示策略,将任务提示翻译成每种语言。4) 性能评估:评估模型在单语和跨语环境下的性能,并分析语言偏差。5) 检索偏差分析:使用多语言嵌入模型,分析检索到的声明的频率。
关键创新:本文的关键创新在于:1) 系统性地研究了多语言LLM在事实核查任务中的语言偏差,揭示了不同模型在不同语言上的性能差异。2) 提出了检索偏差的概念,并分析了其对事实核查公平性的影响。3) 采用完全多语言的提示策略,避免了英语中心的方法,更真实地反映了模型的跨语言能力。
关键设计:在实验设计方面,本文采用了以下关键设计:1) 使用AMC-16K数据集,该数据集覆盖了20种语言,为多语言评估提供了基础。2) 选择了六个具有代表性的开源多语言LLM,包括不同模型系列和大小的模型。3) 采用完全多语言的提示策略,确保所有语言的提示都经过翻译,避免了英语中心带来的偏差。4) 使用多语言嵌入模型计算声明之间的相似度,并分析检索到的声明的频率。
📊 实验亮点
实验结果表明,多语言LLM在不同语言上的性能存在显著差异,高资源语言(如英语)的性能明显优于低资源语言。检索偏差分析显示,某些声明被不成比例地检索,导致热门声明的检索性能虚高。研究结果强调了在多语言事实核查中解决语言和检索偏差的重要性。
🎯 应用场景
该研究成果可应用于多语言新闻媒体、社交媒体平台和事实核查组织,以提高跨语言事实核查的准确性和公平性。通过减少语言和检索偏差,可以帮助用户更好地识别虚假信息,尤其是在低资源语言环境中,从而促进信息的健康传播和公众的知情权。
📄 摘要(原文)
Multilingual Large Language Models (LLMs) offer powerful capabilities for cross-lingual fact-checking. However, these models often exhibit language bias, performing disproportionately better on high-resource languages such as English than on low-resource counterparts. We also present and inspect a novel concept - retrieval bias, when information retrieval systems tend to favor certain information over others, leaving the retrieval process skewed. In this paper, we study language and retrieval bias in the context of Previously Fact-Checked Claim Detection (PFCD). We evaluate six open-source multilingual LLMs across 20 languages using a fully multilingual prompting strategy, leveraging the AMC-16K dataset. By translating task prompts into each language, we uncover disparities in monolingual and cross-lingual performance and identify key trends based on model family, size, and prompting strategy. Our findings highlight persistent bias in LLM behavior and offer recommendations for improving equity in multilingual fact-checking. To investigate retrieval bias, we employed multilingual embedding models and look into the frequency of retrieved claims. Our analysis reveals that certain claims are retrieved disproportionately across different posts, leading to inflated retrieval performance for popular claims while under-representing less common ones.