ArabJobs: A Multinational Corpus of Arabic Job Ads

📄 arXiv: 2509.22589v1 📥 PDF

作者: Mo El-Haj

分类: cs.CL

发布日期: 2025-09-26

🔗 代码/项目: GITHUB


💡 一句话要点

ArabJobs:一个多国阿拉伯语招聘广告语料库,用于公平感知的阿拉伯语NLP和劳动力市场研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语NLP 招聘广告语料库 劳动力市场分析 性别偏见检测 职业分类 多语言处理 自然语言处理

📋 核心要点

  1. 现有阿拉伯语NLP研究缺乏大规模、多地域的招聘信息数据集,限制了对阿拉伯劳动力市场深入分析和公平性研究。
  2. ArabJobs通过收集并整理来自多个阿拉伯国家的招聘广告,构建了一个包含丰富语言和文化信息的大型语料库。
  3. 该语料库被用于薪资估计、职位分类、性别偏见检测等任务,为公平感知的阿拉伯语NLP和劳动力市场研究提供了基准。

📝 摘要(中文)

ArabJobs是一个公开可用的阿拉伯语招聘广告语料库,数据来源于埃及、约旦、沙特阿拉伯和阿拉伯联合酋长国。该数据集包含超过8500个招聘信息和超过55万个单词,捕捉了阿拉伯劳动力市场的语言、区域和社会经济变化。我们分析了性别代表性和职业结构,并强调了广告中的方言差异,这为未来的研究提供了机会。我们还展示了使用大型语言模型进行薪资估计和职位类别规范化的应用,以及性别偏见检测和职业分类的基准任务。研究结果表明了ArabJobs在公平感知的阿拉伯语NLP和劳动力市场研究中的效用。该数据集可在GitHub上公开获取:https://github.com/drelhaj/ArabJobs。

🔬 方法详解

问题定义:论文旨在构建一个大规模、多地域的阿拉伯语招聘广告语料库,以解决现有阿拉伯语NLP研究中数据匮乏的问题。现有方法缺乏对阿拉伯劳动力市场语言、区域和社会经济多样性的覆盖,限制了相关研究的深入开展,尤其是在公平性分析方面。

核心思路:论文的核心思路是通过收集来自不同阿拉伯国家的招聘广告,构建一个包含丰富语言和文化信息的大型语料库。该语料库旨在反映阿拉伯劳动力市场的多样性,并为公平感知的阿拉伯语NLP和劳动力市场研究提供数据基础。

技术框架:该研究主要涉及数据收集和整理。从埃及、约旦、沙特阿拉伯和阿拉伯联合酋长国收集招聘广告,然后进行清洗、标注和分析。该框架还包括使用大型语言模型进行薪资估计和职位类别规范化的应用,以及性别偏见检测和职业分类的基准任务。

关键创新:该研究的关键创新在于构建了一个公开可用的、多地域的阿拉伯语招聘广告语料库。该语料库不仅规模庞大,而且涵盖了阿拉伯劳动力市场的语言、区域和社会经济多样性,为相关研究提供了宝贵的数据资源。

关键设计:论文没有详细描述具体的参数设置、损失函数或网络结构,而是侧重于语料库的构建和初步分析。薪资估计和职位类别规范化等任务使用了大型语言模型,但具体模型的选择和训练细节未知。性别偏见检测和职业分类任务的具体实现细节也未知。

📊 实验亮点

论文展示了ArabJobs语料库在薪资估计、职位类别规范化、性别偏见检测和职业分类等任务中的应用。虽然没有提供具体的性能数据和对比基线,但结果表明该语料库对于公平感知的阿拉伯语NLP和劳动力市场研究具有重要价值。该语料库的公开可用性将促进相关领域的研究。

🎯 应用场景

ArabJobs语料库可广泛应用于劳动力市场分析、招聘信息处理、薪资预测、职业分类、性别偏见检测等领域。该语料库有助于研究人员深入了解阿拉伯劳动力市场的特点和趋势,并开发更公平、更有效的招聘系统。未来,该语料库可用于构建智能招聘助手、个性化职业推荐系统等。

📄 摘要(原文)

ArabJobs is a publicly available corpus of Arabic job advertisements collected from Egypt, Jordan, Saudi Arabia, and the United Arab Emirates. Comprising over 8,500 postings and more than 550,000 words, the dataset captures linguistic, regional, and socio-economic variation in the Arab labour market. We present analyses of gender representation and occupational structure, and highlight dialectal variation across ads, which offers opportunities for future research. We also demonstrate applications such as salary estimation and job category normalisation using large language models, alongside benchmark tasks for gender bias detection and profession classification. The findings show the utility of ArabJobs for fairness-aware Arabic NLP and labour market research. The dataset is publicly available on GitHub: https://github.com/drelhaj/ArabJobs.