Evaluating Large Language Models for Cross-Lingual Retrieval

作者: Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko

分类: cs.CL, cs.IR

发布日期: 2025-09-18

备注: Accepted at EMNLP 2025 (Findings)

💡 一句话要点

评估大语言模型在跨语言检索中的应用，揭示检索器与重排序器间的交互影响。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言检索 大型语言模型 多语言双编码器 信息检索 重排序 机器翻译

📋 核心要点

现有CLIR方法依赖机器翻译进行第一阶段检索，成本高昂且易引入误差，限制了性能。
论文提出使用多语言双编码器作为第一阶段检索器，并研究其与LLM重排序器的交互作用。
实验表明，多语言双编码器能提升CLIR性能，且更强的重排序模型能降低对翻译的依赖。

📝 摘要（中文）

多阶段信息检索(IR)已成为搜索领域广泛采用的范式。虽然大型语言模型(LLM)作为单语IR的第二阶段重排序模型已被广泛评估，但对于跨语言IR(CLIR)的系统性大规模比较仍然缺乏。此外，先前的工作表明，基于LLM的重排序器可以提高CLIR的性能，但它们的评估设置依赖于使用机器翻译(MT)进行第一阶段的词汇检索。这不仅成本高昂，而且容易导致跨阶段的误差传播。我们对段落级和文档级CLIR的评估表明，使用多语言双编码器作为第一阶段检索器可以实现进一步的提升，并且翻译的好处随着更强的重排序模型而减少。我们进一步表明，基于指令调整LLM的成对重排序器与列表式重排序器相比具有竞争力。据我们所知，我们是第一个研究LLM在两阶段CLIR中检索器和重排序器之间交互的研究。我们的研究结果表明，在没有MT的情况下，当前最先进的重排序器直接应用于CLIR时会严重不足。

🔬 方法详解

问题定义：论文旨在解决跨语言信息检索（CLIR）中，现有方法过度依赖机器翻译（MT）进行第一阶段检索，导致成本高昂和误差传播的问题。现有方法的痛点在于，第一阶段检索的质量直接影响后续重排序的效果，而MT引入的噪声会降低检索的准确性。

核心思路：论文的核心思路是探索使用多语言双编码器作为第一阶段检索器，替代传统的基于词汇的检索方法结合机器翻译的方案。同时，研究不同类型的LLM重排序器与多语言双编码器检索器之间的交互作用，分析在CLIR任务中是否可以减少对机器翻译的依赖。

技术框架：论文采用两阶段检索框架。第一阶段使用多语言双编码器检索器，从跨语言文档集中检索候选文档。第二阶段使用LLM重排序器，对第一阶段检索到的候选文档进行排序，选择最相关的文档。论文比较了不同的LLM重排序器，包括成对重排序器和列表式重排序器。

关键创新：论文的关键创新在于系统性地研究了多语言双编码器检索器与LLM重排序器在两阶段CLIR中的交互作用。以往的研究主要集中在使用MT进行第一阶段检索，而忽略了检索器本身对CLIR性能的影响。论文首次证明了使用多语言双编码器可以有效提升CLIR性能，并减少对MT的依赖。

关键设计：论文的关键设计包括：1) 使用预训练的多语言双编码器模型作为第一阶段检索器，例如mBERT或XLM-RoBERTa。2) 采用不同的LLM重排序器，包括基于指令调整的成对重排序器和列表式重排序器，例如RankT5。3) 使用标准CLIR数据集进行评估，例如MLDoc和MIRACL。4) 评估指标包括Recall@K和NDCG@K，用于衡量检索和排序的准确性。

📊 实验亮点

实验结果表明，使用多语言双编码器作为第一阶段检索器，可以显著提升CLIR性能。与依赖机器翻译的传统方法相比，该方法在段落级和文档级CLIR任务上均取得了更好的效果。此外，研究还发现，更强的LLM重排序器可以进一步降低对机器翻译的依赖，甚至在某些情况下可以完全消除对机器翻译的需求。

🎯 应用场景

该研究成果可应用于跨语言搜索引擎、多语言问答系统、国际新闻聚合等领域。通过提升跨语言信息检索的效率和准确性，有助于打破语言壁垒，促进全球范围内的信息共享和知识传播。未来，该研究方向有望推动构建更加智能和便捷的跨语言信息服务。

📄 摘要（原文）

Multi-stage information retrieval (IR) has become a widely-adopted paradigm in search. While Large Language Models (LLMs) have been extensively evaluated as second-stage reranking models for monolingual IR, a systematic large-scale comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior work shows that LLM-based rerankers improve CLIR performance, their evaluation setup relies on lexical retrieval with machine translation (MT) for the first stage. This is not only prohibitively expensive but also prone to error propagation across stages. Our evaluation on passage-level and document-level CLIR reveals that further gains can be achieved with multilingual bi-encoders as first-stage retrievers and that the benefits of translation diminishes with stronger reranking models. We further show that pairwise rerankers based on instruction-tuned LLMs perform competitively with listwise rerankers. To the best of our knowledge, we are the first to study the interaction between retrievers and rerankers in two-stage CLIR with LLMs. Our findings reveal that, without MT, current state-of-the-art rerankers fall severely short when directly applied in CLIR.

Evaluating Large Language Models for Cross-Lingual Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册