Enhancing Multilingual RAG Systems with Debiased Language Preference-Guided Query Fusion
作者: Jeonghyun Park, Byeongjeong Kim, Seojin Hwang, Hwanhee Lee
分类: cs.CL
发布日期: 2026-01-06
备注: 20 pages, 5 figures, 15 tables
💡 一句话要点
提出DeLP指标与DELTA框架,解决多语言RAG系统中由评估偏差导致的语言偏好问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言RAG 语言偏好 偏差校正 跨语言检索 查询融合
📋 核心要点
- 现有的多语言RAG系统评估存在结构性偏差,导致对模型语言偏好的错误判断,尤其高估了英语的优势。
- 论文提出DeLP指标来消除评估偏差,发现检索器更偏好查询和文档的单语对齐,而非固有英语偏好。
- 基于此,论文设计DELTA框架,利用单语对齐优化跨语言检索和生成,实验证明其优于现有方法。
📝 摘要(中文)
多语言检索增强生成(mRAG)系统通常表现出对高资源语言(特别是英语)的偏好,导致广泛采用英语枢轴。先前的研究将这种优势归因于大型语言模型(LLM)以英语为中心的卓越能力,但我们发现这种测量结果被评估基准中固有的结构性先验所严重扭曲。具体而言,我们确定了暴露偏差和黄金可用性先验(均由英语资源的过度集中驱动)以及根植于主题局部性的文化先验,这些因素阻碍了对真正语言偏好的准确评估。为了解决这些偏差,我们提出了DeLP(Debiased Language Preference),一种经过校准的指标,旨在明确排除这些结构性混淆因素。我们使用DeLP的分析表明,先前报告的英语偏好很大程度上是证据分布的副产品,而不是固有的模型偏差。相反,我们发现检索器从根本上偏爱查询和文档语言之间的单语对齐。基于这一见解,我们引入了DELTA(DEbiased Language preference-guided Text Augmentation),一个轻量级且高效的mRAG框架,它战略性地利用单语对齐来优化跨语言检索和生成。实验结果表明,DELTA在各种语言中始终优于英语枢轴和mRAG基线。
🔬 方法详解
问题定义:现有的多语言RAG系统在评估时存在偏差,导致对模型真实语言偏好的错误判断。具体来说,评估基准中英语资源过度集中导致了暴露偏差和黄金可用性先验,而主题局部性则引入了文化先验。这些偏差使得我们难以准确评估模型是否真的偏好英语,或者仅仅是因为评估数据集中英语相关信息更多。
核心思路:论文的核心思路是首先识别并消除评估偏差,然后基于校正后的评估结果来设计更有效的多语言RAG系统。通过提出DeLP指标,论文能够更准确地衡量模型对不同语言的偏好。基于DeLP的分析,论文发现检索器更倾向于查询和文档之间的单语对齐,而不是固有地偏好英语。因此,论文设计DELTA框架,利用单语对齐来提升跨语言检索和生成效果。
技术框架:DELTA框架主要包含以下几个阶段:1) 使用DeLP指标校正语言偏好;2) 基于校正后的语言偏好,对查询进行融合,生成更适合目标语言检索的查询;3) 使用融合后的查询进行跨语言检索,获取相关文档;4) 使用检索到的文档进行生成,得到最终的答案。框架的核心在于查询融合阶段,该阶段利用了单语对齐的优势,生成与目标文档语言更匹配的查询。
关键创新:论文的关键创新在于:1) 提出了DeLP指标,能够消除评估偏差,更准确地衡量模型的语言偏好;2) 发现检索器更倾向于查询和文档之间的单语对齐,而不是固有地偏好英语;3) 设计了DELTA框架,利用单语对齐来提升跨语言检索和生成效果。与现有方法相比,DELTA框架能够更有效地利用多语言信息,避免了对英语的过度依赖。
关键设计:DeLP指标通过显式地排除结构性混淆因素来校准语言偏好。DELTA框架中的查询融合阶段,使用了语言偏好指导的文本增强技术,具体实现方式未知。框架的具体参数设置、损失函数和网络结构等技术细节在论文中未详细说明。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DELTA框架在各种语言中始终优于英语枢轴和mRAG基线,证明了其有效性。具体的性能提升数据未知,但论文强调DELTA框架能够更有效地利用多语言信息,避免对英语的过度依赖,从而提升整体性能。
🎯 应用场景
该研究成果可应用于多语言信息检索、跨语言问答系统、多语言内容生成等领域。通过消除语言偏见,可以提升多语言RAG系统在非英语语言环境下的性能,使得更多用户能够平等地获取信息。未来,该研究可以进一步扩展到更多语言和领域,促进全球范围内的信息共享和文化交流。
📄 摘要(原文)
Multilingual Retrieval-Augmented Generation (mRAG) systems often exhibit a perceived preference for high-resource languages, particularly English, resulting in the widespread adoption of English pivoting. While prior studies attribute this advantage to the superior English-centric capabilities of Large Language Models (LLMs), we find that such measurements are significantly distorted by structural priors inherent in evaluation benchmarks. Specifically, we identify exposure bias and a gold availability prior-both driven by the disproportionate concentration of resources in English-as well as cultural priors rooted in topic locality, as factors that hinder accurate assessment of genuine language preference. To address these biases, we propose DeLP (Debiased Language Preference), a calibrated metric designed to explicitly factor out these structural confounds. Our analysis using DeLP reveals that the previously reported English preference is largely a byproduct of evidence distribution rather than an inherent model bias. Instead, we find that retrievers fundamentally favor monolingual alignment between the query and the document language. Building on this insight, we introduce DELTA (DEbiased Language preference-guided Text Augmentation), a lightweight and efficient mRAG framework that strategically leverages monolingual alignment to optimize cross-lingual retrieval and generation. Experimental results demonstrate that DELTA consistently outperforms English pivoting and mRAG baselines across diverse languages.