VietJobs: A Vietnamese Job Advertisement Dataset
作者: Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj
分类: cs.CL
发布日期: 2026-03-05
备注: 10 pages
期刊: Language Resources and Evaluation Conference (LREC) 2026
🔗 代码/项目: GITHUB
💡 一句话要点
VietJobs:首个大规模越南语招聘广告数据集,为NLP和劳动力市场分析提供基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 越南语NLP 招聘广告数据集 劳动力市场分析 大型语言模型 职位分类 薪资估计 指令调优
📋 核心要点
- 现有越南语招聘信息数据集规模小,难以支持复杂的NLP任务和劳动力市场分析。
- VietJobs构建大规模越南语招聘数据集,包含职位信息、薪资、技能等结构化数据,覆盖多种职业和雇佣类型。
- 实验表明,指令调优的大型语言模型在职位分类和薪资预测任务上表现出显著提升,但仍面临多语言建模挑战。
📝 摘要(中文)
VietJobs是首个公开发布的大规模越南语招聘广告语料库,包含来自越南所有34个省市的48,092个职位发布和超过1500万个单词。该数据集提供了广泛的语言和结构化信息,包括职位名称、类别、薪资、技能和雇佣条件,涵盖16个职业领域和多种雇佣类型(全职、兼职和实习)。VietJobs旨在支持自然语言处理和劳动力市场分析的研究,捕捉了大量的语言、区域和社会经济多样性。我们在两个核心任务上对几个生成式大型语言模型(LLMs)进行了基准测试:职位类别分类和薪资估计。经过指令调优的模型,如Qwen2.5-7B-Instruct和Llama-SEA-LION-v3-8B-IT,在少样本和微调设置下表现出显著的提升,同时也突出了多语言和越南语特定建模在结构化劳动力市场预测中的挑战。VietJobs为越南语NLP建立了一个新的基准,并为未来关于招聘语言、社会经济表征和人工智能驱动的劳动力市场分析的研究提供了有价值的基础。所有代码和资源可在https://github.com/VinNLP/VietJobs获得。
🔬 方法详解
问题定义:论文旨在解决越南语自然语言处理领域缺乏大规模、高质量招聘信息数据集的问题。现有方法难以有效分析越南语招聘市场的特点,限制了相关研究的进展。
核心思路:论文的核心思路是构建一个包含丰富语言信息和结构化信息的越南语招聘广告数据集,从而为越南语NLP和劳动力市场分析提供新的基准和资源。通过收集来自越南各地的大量招聘信息,并进行清洗、标注和整理,构建一个具有代表性和多样性的数据集。
技术框架:该研究主要分为数据收集和基准测试两个阶段。数据收集阶段从越南各地的招聘网站收集招聘广告,并进行清洗和标注。基准测试阶段,使用收集到的数据集对多个大型语言模型进行评估,包括职位类别分类和薪资估计两个任务。
关键创新:该论文的主要创新在于构建了首个大规模、公开可用的越南语招聘广告数据集VietJobs。该数据集不仅包含大量的文本数据,还提供了丰富的结构化信息,如职位名称、类别、薪资、技能等,为越南语NLP研究提供了新的资源。
关键设计:数据集包含48,092个招聘广告,超过1500万个单词,覆盖16个职业领域和多种雇佣类型。基准测试中,使用了Qwen2.5-7B-Instruct和Llama-SEA-LION-v3-8B-IT等大型语言模型,并采用了少样本学习和微调等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过指令调优的大型语言模型(如Qwen2.5-7B-Instruct和Llama-SEA-LION-v3-8B-IT)在职位类别分类和薪资估计任务上取得了显著的性能提升。在少样本学习和微调设置下,这些模型表现出优于其他基线模型的性能,验证了VietJobs数据集的有效性。
🎯 应用场景
VietJobs数据集可广泛应用于招聘信息分析、劳动力市场趋势预测、人才技能需求分析等领域。该数据集能够帮助企业更精准地发布招聘信息,求职者更高效地找到合适的工作,政府更科学地制定就业政策,并推动越南语自然语言处理技术的发展。
📄 摘要(原文)
VietJobs is the first large-scale, publicly available corpus of Vietnamese job advertisements, comprising 48,092 postings and over 15 million words collected from all 34 provinces and municipalities across Vietnam. The dataset provides extensive linguistic and structured information, including job titles, categories, salaries, skills, and employment conditions, covering 16 occupational domains and multiple employment types (full-time, part-time, and internship). Designed to support research in natural language processing and labour market analytics, VietJobs captures substantial linguistic, regional, and socio-economic diversity. We benchmark several generative large language models (LLMs) on two core tasks: job category classification and salary estimation. Instruction-tuned models such as Qwen2.5-7B-Instruct and Llama-SEA-LION-v3-8B-IT demonstrate notable gains under few-shot and fine-tuned settings, while highlighting challenges in multilingual and Vietnamese-specific modelling for structured labour market prediction. VietJobs establishes a new benchmark for Vietnamese NLP and offers a valuable foundation for future research on recruitment language, socio-economic representation, and AI-driven labour market analysis. All code and resources are available at: https://github.com/VinNLP/VietJobs.