UWBa at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval

📄 arXiv: 2508.09517v1 📥 PDF

作者: Ladislav Lenc, Daniel Cífka, Jiří Martínek, Jakub Šmíd, Pavel Král

分类: cs.CL

发布日期: 2025-08-13

备注: Published in Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025). Official version: https://aclanthology.org/2025.semeval-1.31/


💡 一句话要点

提出零-shot系统以解决多语言事实核查声明检索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零-shot学习 多语言检索 事实核查 文本嵌入 模型组合 余弦相似度 大型语言模型

📋 核心要点

  1. 现有的多语言和跨语言声明检索方法在准确性和效率上存在不足,尤其是在处理事实核查时。
  2. 本文提出了一种基于零-shot学习的系统,利用多种大型语言模型的文本嵌入来提高声明检索的准确性。
  3. 实验结果显示,该方法在单语任务中排名第七,在跨语言任务中排名第九,表明其有效性和实用性。

📝 摘要(中文)

本文提出了一种零-shot系统用于事实核查声明的检索。我们采用了多种最先进的大型语言模型来获取文本嵌入,并将这些模型组合以获得最佳结果。我们的方案在单语任务中获得第七名,在跨语言子任务中获得第九名。由于多语言模型未能取得令人满意的结果,我们仅使用英文翻译作为文本嵌入模型的输入。通过利用嵌入并测量余弦相似度,我们识别出每个帖子最相关的声明。总体而言,NVIDIA NV-Embed-v2模型取得了最佳结果。在某些语言中,我们通过模型组合(如NV-Embed与GPT或Mistral)获得了额外的收益。

🔬 方法详解

问题定义:本文旨在解决多语言和跨语言的事实核查声明检索问题。现有方法在处理不同语言的声明时,准确性和效率均存在不足,尤其是在缺乏足够训练数据的情况下。

核心思路:我们提出了一种零-shot学习的系统,利用多种大型语言模型生成文本嵌入,并通过组合这些模型来优化检索效果。这样的设计旨在最大化模型的表现,尤其是在多语言环境中。

技术框架:整体架构包括文本嵌入生成、模型组合和相似度计算三个主要模块。首先,使用大型语言模型生成文本嵌入,然后通过组合不同模型的输出,最后利用余弦相似度来识别最相关的声明。

关键创新:最重要的创新在于采用了零-shot学习策略,并通过组合不同的语言模型(如NV-Embed与GPT或Mistral)来提升检索性能。这与传统方法依赖于大量标注数据的方式形成了鲜明对比。

关键设计:在模型选择上,我们发现NVIDIA NV-Embed-v2模型在多个语言上表现最佳。此外,模型组合的策略也经过精心设计,以确保在不同语言中均能获得良好的效果。

📊 实验亮点

实验结果显示,提出的方法在单语任务中获得第七名,在跨语言任务中获得第九名,表明其在多语言声明检索中的有效性。特别是,NVIDIA NV-Embed-v2模型的表现优于其他模型组合,展示了显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括社交媒体监控、新闻验证和在线信息检索等。通过提高多语言和跨语言的声明检索能力,能够有效地帮助用户识别和验证信息的真实性,进而减少虚假信息的传播。未来,该技术可能在全球范围内的事实核查和信息透明度提升中发挥重要作用。

📄 摘要(原文)

This paper presents a zero-shot system for fact-checked claim retrieval. We employed several state-of-the-art large language models to obtain text embeddings. The models were then combined to obtain the best possible result. Our approach achieved 7th place in monolingual and 9th in cross-lingual subtasks. We used only English translations as an input to the text embedding models since multilingual models did not achieve satisfactory results. We identified the most relevant claims for each post by leveraging the embeddings and measuring cosine similarity. Overall, the best results were obtained by the NVIDIA NV-Embed-v2 model. For some languages, we benefited from model combinations (NV-Embed & GPT or Mistral).