Quantifying Language Disparities in Multilingual Large Language Models
作者: Songbo Hu, Ivan Vulić, Anna Korhonen
分类: cs.CL
发布日期: 2025-08-23
备注: Accepted at EMNLP 2025
💡 一句话要点
提出框架以量化多语言大模型中的语言差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 性能评估 语言差异 低资源语言 可解释指标
📋 核心要点
- 现有多语言模型评估结果常因多种因素而混淆,难以准确量化语言间的性能差异。
- 本文提出的框架通过引入三种新指标,有效解耦混淆变量,提供更清晰的性能评估。
- 实验结果显示,该框架在低资源语言的评估上表现优越,揭示了模型性能与语言公平性之间的复杂关系。
📝 摘要(中文)
在大规模多语言评估中,结果常常因目标语言、实验设置和模型选择等因素而变得碎片化和混淆。本文提出了一种框架,能够解开这些混淆变量,并引入三种可解释的指标——性能实现比、其变异系数和语言潜力,从而实现对模型和语言间实际性能差异的更细致和深入的量化。通过对13种模型变体在11个多语言数据集上的案例研究,我们展示了该框架提供了更可靠的模型性能和语言差异测量,特别是对于低资源语言的评估。此外,研究结果表明,模型的整体性能提升并不一定意味着语言间的公平性增强。
🔬 方法详解
问题定义:本文旨在解决现有多语言模型评估中因目标语言和实验设置等因素导致的结果混淆问题。现有方法在低资源语言的评估上存在显著不足,难以提供可靠的性能比较。
核心思路:论文提出的框架通过引入性能实现比、变异系数和语言潜力等指标,能够有效解耦混淆变量,从而实现对模型和语言间性能差异的更细致量化。
技术框架:该框架包括三个主要模块:首先是数据预处理,确保不同语言和模型的可比性;其次是指标计算模块,计算性能实现比、变异系数和语言潜力;最后是结果分析模块,提供可视化和深入分析。
关键创新:最重要的创新在于引入了三种新的可解释指标,使得对多语言模型性能的评估更加全面和深入。这与传统方法的单一性能指标评估形成了鲜明对比。
关键设计:在指标计算中,性能实现比通过模型在特定语言上的表现与其整体表现的比值来定义,变异系数则用于衡量不同语言间的性能波动,语言潜力则评估模型在特定语言上的潜在表现。
📊 实验亮点
实验结果表明,使用该框架评估的13种模型变体在11个多语言数据集上,能够更准确地反映模型性能与语言间的差异。尤其是在低资源语言上,框架的应用显著提高了评估的可靠性,揭示了模型性能与语言公平性之间的复杂关系。
🎯 应用场景
该研究的框架可广泛应用于多语言自然语言处理任务的性能评估,尤其是在低资源语言的研究中具有重要价值。通过提供更可靠的评估指标,研究者和开发者能够更好地理解和优化多语言模型的公平性与性能,推动多语言技术的进步。
📄 摘要(原文)
Results reported in large-scale multilingual evaluations are often fragmented and confounded by factors such as target languages, differences in experimental setups, and model choices. We propose a framework that disentangles these confounding variables and introduces three interpretable metrics--the performance realisation ratio, its coefficient of variation, and language potential--enabling a finer-grained and more insightful quantification of actual performance disparities across both (i) models and (ii) languages. Through a case study of 13 model variants on 11 multilingual datasets, we demonstrate that our framework provides a more reliable measurement of model performance and language disparities, particularly for low-resource languages, which have so far proven challenging to evaluate. Importantly, our results reveal that higher overall model performance does not necessarily imply greater fairness across languages.