GaelEval: Benchmarking LLM Performance for Scottish Gaelic
作者: Peter Devine, William Lamb, Beatrice Alex, Ignatius Ezeani, Dawn Knight, Mícheál J. Ó Meachair, Paul Rayson, Martin Wynne
分类: cs.CL
发布日期: 2026-04-02
备注: 13 pages, to be published in Proceedings of LLMs4SSH (workshop co-located with LREC 2026; Mallorca, Spain; May 2026)
💡 一句话要点
GaelEval:构建苏格兰盖尔语LLM多维度评测基准,揭示模型语言和文化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 苏格兰盖尔语 大型语言模型 多语言评测 形态句法 文化知识
📋 核心要点
- 现有翻译基准难以评估LLM在形态句法丰富的少数民族语言(如苏格兰盖尔语)上的结构能力。
- GaelEval通过构建形态句法、文化翻译和文化知识问答三个维度基准,全面评估LLM的盖尔语能力。
- 实验表明,Gemini 3 Pro Preview在语言任务上超越人类基线,专有模型优于开源模型,盖尔语提示略有优势。
📝 摘要(中文)
多语言大型语言模型(LLM)通常在未正式支持的语言中表现出潜在的“影子”能力,但它们在这些语言上的性能仍然参差不齐且测量不足。对于像苏格兰盖尔语这样形态句法丰富的少数民族语言来说,情况尤其严重,因为翻译基准无法捕捉其结构能力。我们推出了GaelEval,这是第一个针对盖尔语的多维度基准,包括:(i)专家编写的形态句法多项选择题任务;(ii)一个具有文化基础的翻译基准;以及(iii)一个大规模的文化知识问答任务。通过评估19个LLM,并以流利使用者为人类基线(n=30),我们发现Gemini 3 Pro Preview在语言任务上达到了83.3%的准确率,超过了人类基线(78.1%)。专有模型始终优于开源模型,并且使用盖尔语进行提示会产生微小但稳定的优势(+2.4%)。在文化任务中,领先模型的准确率超过90%,尽管大多数系统在盖尔语提示下的表现更差,并且绝对分数相对于手动基准有所膨胀。总的来说,GaelEval表明,前沿模型在盖尔语语法的几个维度上实现了高于人类的表现,证明了盖尔语提示的效果,并显示了专有模型优于开源模型的一致性能差距。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在苏格兰盖尔语这种形态句法丰富的少数民族语言上的性能评估问题。现有翻译基准无法充分捕捉LLM在这些语言上的结构理解能力,缺乏针对文化背景知识的评估。因此,需要一个更全面、多维度的基准来评估LLM的盖尔语能力。
核心思路:论文的核心思路是构建一个包含语言结构、文化翻译和文化知识三个维度的综合性评测基准GaelEval。通过设计不同类型的任务,从多个角度评估LLM对盖尔语的理解和生成能力,从而更准确地反映模型在处理这种复杂语言时的表现。
技术框架:GaelEval包含三个主要模块:(1) 形态句法多项选择题任务:由专家设计,评估LLM对盖尔语语法的理解。(2) 文化翻译基准:评估LLM在翻译过程中对文化背景的理解和运用。(3) 大规模文化知识问答任务:评估LLM对盖尔语文化知识的掌握程度。该框架通过综合评估这三个维度,全面衡量LLM的盖尔语能力。
关键创新:GaelEval的主要创新在于其多维度评估方法,它不仅关注语言的翻译准确性,还深入评估了LLM对语言结构和文化背景的理解。此外,该基准是首个针对苏格兰盖尔语的综合性评测工具,填补了该领域的研究空白。
关键设计:形态句法任务采用多项选择题形式,由专家精心设计,确保题目的难度和区分度。文化翻译任务侧重于选择具有文化内涵的句子,评估模型在翻译过程中对文化信息的保留和传达。文化知识问答任务则通过大规模的问题集合,考察模型对盖尔语文化知识的掌握程度。论文还对比了使用英语提示和盖尔语提示对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gemini 3 Pro Preview在形态句法任务上达到了83.3%的准确率,超过了人类基线(78.1%)。专有模型(如Gemini)始终优于开源模型。使用盖尔语进行提示可以带来微小但稳定的性能提升(+2.4%)。在文化知识问答任务中,领先模型的准确率超过90%。
🎯 应用场景
GaelEval可用于评估和改进LLM在苏格兰盖尔语等少数民族语言上的性能,促进语言技术的公平发展。该基准还可用于评估LLM对特定文化背景的理解能力,推动文化传承和跨文化交流。未来,GaelEval可以扩展到其他少数民族语言,构建更完善的多语言评测体系。
📄 摘要(原文)
Multilingual large language models (LLMs) often exhibit emergent 'shadow' capabilities in languages without official support, yet their performance on these languages remains uneven and under-measured. This is particularly acute for morphosyntactically rich minority languages such as Scottish Gaelic, where translation benchmarks fail to capture structural competence. We introduce GaelEval, the first multi-dimensional benchmark for Gaelic, comprising: (i) an expert-authored morphosyntactic MCQA task; (ii) a culturally grounded translation benchmark and (iii) a large-scale cultural knowledge Q&A task. Evaluating 19 LLMs against a fluent-speaker human baseline ($n=30$), we find that Gemini 3 Pro Preview achieves $83.3\%$ accuracy on the linguistic task, surpassing the human baseline ($78.1\%$). Proprietary models consistently outperform open-weight systems, and in-language (Gaelic) prompting yields a small but stable advantage (+$2.4\%$). On the cultural task, leading models exceed $90\%$ accuracy, though most systems perform worse under Gaelic prompting and absolute scores are inflated relative to the manual benchmark. Overall, GaelEval reveals that frontier models achieve above-human performance on several dimensions of Gaelic grammar, demonstrates the effect of Gaelic prompting and shows a consistent performance gap favouring proprietary over open-weight models.