Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs
作者: Elisa Forcada Rodríguez, Olatz Perez-de-Viñaspre, Jon Ander Campos, Dietrich Klakow, Vagrant Gautam
分类: cs.CL
发布日期: 2025-05-05 (更新: 2025-07-26)
备注: Workshop on Gender Bias in Natural Language Processing at ACL 2025
💡 一句话要点
提出多语言交叉性性别与国家偏见研究以改善职业推荐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 性别偏见 国家偏见 交叉性分析 多语言处理 大语言模型 公平性研究 职业推荐
📋 核心要点
- 现有的公平性研究通常集中于单一的偏见轴(如性别),且多以英语为主,缺乏对多语言和交叉性偏见的系统研究。
- 本研究通过构建多语言基准数据集,系统性地考察性别与国家交叉偏见,评估大语言模型在职业推荐中的表现。
- 实验结果表明,模型存在显著的性别和国家偏见,且经过指令调优的模型在偏见控制上表现最佳,强调了多语言视角的重要性。
📝 摘要(中文)
本研究旨在测量和减轻自然语言处理系统中传播的刻板印象偏见,特别关注多语言交叉性性别和国家偏见。我们构建了一个包含英语、西班牙语和德语的基准数据集,系统性地变化国家和性别,涵盖25个国家和四组代词。通过对5个基于Llama的模型进行评估,发现这些模型显著编码了性别和国家偏见。即使在性别或国家单独表现出平等时,基于国家和性别的交叉性职业偏见依然存在。此外,提示语言显著影响偏见,而经过指令调优的模型表现出最低且最稳定的偏见水平。我们的研究强调了公平性研究者在工作中使用交叉性和多语言视角的必要性。
🔬 方法详解
问题定义:本研究解决了现有自然语言处理系统中存在的性别与国家偏见问题,尤其是缺乏对交叉性偏见的关注。现有方法多集中于单一偏见,未能全面评估多语言环境下的偏见表现。
核心思路:论文通过构建一个多语言的基准数据集,系统性地变化国家和性别,来评估大语言模型在职业推荐中的偏见表现,旨在揭示交叉性偏见的存在及其影响。
技术框架:研究首先构建了包含25个国家和四组代词的提示基准,随后对5个基于Llama的模型进行评估,分析其在不同提示下的偏见表现。
关键创新:本研究的创新在于首次系统性地探讨了多语言环境下的交叉性性别与国家偏见,填补了现有研究的空白,强调了在公平性研究中考虑交叉性的重要性。
关键设计:在实验中,使用了多种提示语言,并对模型进行了指令调优,以确保在不同条件下评估偏见的稳定性和表现。
📊 实验亮点
实验结果显示,评估的Llama模型在性别和国家偏见方面表现出显著的偏见,尤其是在交叉性分析中,即使在单一偏见上表现出平等,交叉偏见依然存在。经过指令调优的模型在偏见控制上表现出最低且最稳定的水平,表明调优策略的重要性。
🎯 应用场景
该研究的潜在应用领域包括招聘系统、职业推荐平台和社会科学研究等。通过识别和减轻模型中的偏见,可以提高职业推荐的公平性和准确性,促进更包容的社会环境。未来,研究结果可能推动更广泛的公平性标准和实践,影响相关政策的制定。
📄 摘要(原文)
One of the goals of fairness research in NLP is to measure and mitigate stereotypical biases that are propagated by NLP systems. However, such work tends to focus on single axes of bias (most often gender) and the English language. Addressing these limitations, we contribute the first study of multilingual intersecting country and gender biases, with a focus on occupation recommendations generated by large language models. We construct a benchmark of prompts in English, Spanish and German, where we systematically vary country and gender, using 25 countries and four pronoun sets. Then, we evaluate a suite of 5 Llama-based models on this benchmark, finding that LLMs encode significant gender and country biases. Notably, we find that even when models show parity for gender or country individually, intersectional occupational biases based on both country and gender persist. We also show that the prompting language significantly affects bias, and instruction-tuned models consistently demonstrate the lowest and most stable levels of bias. Our findings highlight the need for fairness researchers to use intersectional and multilingual lenses in their work.