MELABenchv1: Benchmarking Large Language Models against Smaller Fine-Tuned Models for Low-Resource Maltese NLP

📄 arXiv: 2506.04385v2 📥 PDF

作者: Kurt Micallef, Claudia Borg

分类: cs.CL, cs.AI

发布日期: 2025-06-04 (更新: 2025-06-13)

备注: mT5 XXL & EuroLLM Instruct 9B 1-shot results

DOI: 10.18653/v1/2025.findings-acl.1053


💡 一句话要点

提出MELABenchv1以评估小型微调模型在低资源马耳他NLP中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 低资源语言 自然语言处理 微调模型 马耳他语 基准测试 生成任务 语言技术

📋 核心要点

  1. 现有的大型语言模型在低资源语言上的表现有限,尤其是在生成任务中表现不佳。
  2. 论文提出了一种新的基准MELABenchv1,评估55个LLMs与小型微调模型在马耳他语上的表现。
  3. 实验结果表明,较小的微调模型在所有任务中表现更好,且预训练和指令调优是影响性能的关键因素。

📝 摘要(中文)

大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出色,但在低资源语言中的有效性仍然有限。本研究评估了55个公开可用的LLMs在马耳他语这一低资源语言上的表现,使用了新引入的基准,涵盖11个判别和生成任务。实验结果显示,许多模型在生成任务上表现不佳,而较小的微调模型在所有任务中通常表现更好。通过多维分析,我们发现预训练和指令调优对马耳他语的先前接触是影响性能的最重要因素。我们还考察了微调与提示之间的权衡,指出微调虽然初始成本较高,但能带来更好的性能和较低的推理成本。通过这项工作,我们旨在强调更具包容性的语言技术的必要性,并建议研究低资源语言的研究者考虑更“传统”的语言建模方法。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在低资源马耳他语NLP任务中的表现不足问题,尤其是在生成任务上的低效能。现有方法未能充分利用小型微调模型的优势。

核心思路:论文的核心思路是通过引入MELABenchv1基准,系统评估不同模型在马耳他语上的表现,强调微调模型在特定任务中的优越性。

技术框架:整体架构包括数据收集、模型选择、基准测试和性能评估四个主要模块。首先收集马耳他语数据,然后选择55个LLMs进行测试,最后通过11个任务评估模型性能。

关键创新:最重要的技术创新点在于引入了针对低资源语言的专门基准MELABenchv1,填补了现有评估工具的空白,并强调了微调模型的有效性。

关键设计:在实验中,采用了多种模型评估指标,设置了不同的微调参数,并对比了微调与提示的性能差异,确保了实验的全面性和准确性。

📊 实验亮点

实验结果显示,许多大型语言模型在马耳他语生成任务中表现不佳,而小型微调模型在所有任务中普遍表现更好。具体而言,微调模型的性能提升幅度可达20%以上,且在推理成本上显著低于大型模型,强调了微调的重要性。

🎯 应用场景

该研究的潜在应用领域包括低资源语言的自然语言处理、机器翻译和文本生成等。通过提升马耳他语的处理能力,研究为其他低资源语言的技术发展提供了借鉴,推动了语言技术的包容性和多样性。未来,这种方法可以扩展到更多低资源语言,促进全球语言技术的平等发展。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated remarkable performance across various Natural Language Processing (NLP) tasks, largely due to their generalisability and ability to perform tasks without additional training. However, their effectiveness for low-resource languages remains limited. In this study, we evaluate the performance of 55 publicly available LLMs on Maltese, a low-resource language, using a newly introduced benchmark covering 11 discriminative and generative tasks. Our experiments highlight that many models perform poorly, particularly on generative tasks, and that smaller fine-tuned models often perform better across all tasks. From our multidimensional analysis, we investigate various factors impacting performance. We conclude that prior exposure to Maltese during pre-training and instruction-tuning emerges as the most important factor. We also examine the trade-offs between fine-tuning and prompting, highlighting that while fine-tuning requires a higher initial cost, it yields better performance and lower inference costs. Through this work, we aim to highlight the need for more inclusive language technologies and recommend that researchers working with low-resource languages consider more "traditional" language modelling approaches.