Building a Strong Instruction Language Model for a Less-Resourced Language

📄 arXiv: 2603.01691v1 📥 PDF

作者: Domen Vreš, Tjaša Arčon, Timotej Petrič, Dario Vajda, Marko Robnik-Šikonja, Iztok Lebar Bajec

分类: cs.CL, cs.LG

发布日期: 2026-03-02

备注: Currently under review at Natural Language Processing Special Issue on Language Models for Low-Resource Languages


💡 一句话要点

针对低资源斯洛文尼亚语,提出GaMS3-12B指令语言模型,性能媲美GPT-4o

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 大型语言模型 斯洛文尼亚语 持续预训练 监督微调 指令学习 语言模型适配

📋 核心要点

  1. 现有开源LLM主要基于英语训练,在低资源语言上表现不佳,限制了其应用。
  2. 通过多阶段训练,包括持续预训练和监督微调,将LLM有效适配到斯洛文尼亚语。
  3. GaMS3-12B在斯洛文尼亚语任务上超越同规模模型,并可与大型商业模型媲美。

📝 摘要(中文)

大型语言模型(LLMs)已成为自然语言处理和人工智能的重要工具。目前开源模型主要基于英语文本训练,导致在低资源语言和文化上的表现较差。本文提出了一套方法论,用于成功地将LLM适配到低资源语言,并以斯洛文尼亚语为例进行了演示。我们提出了GaMS3-12B,一个拥有120亿参数的斯洛文尼亚语生成模型,并证明它是同参数范围内性能最佳的斯洛文尼亚语开源模型。我们通过Gemma 3模型的三阶段持续预训练,以及两阶段监督微调(SFT),将模型适配到斯洛文尼亚语。我们使用140B的斯洛文尼亚语、英语、波斯尼亚语、塞尔维亚语和克罗地亚语预训练tokens,以及超过20万的英语和斯洛文尼亚语SFT示例训练模型。我们在Slovenian-LLM-Eval数据集、英语到斯洛文尼亚语的翻译以及斯洛文尼亚语LLM竞技场上评估了GaMS3-12B。结果表明,所描述的模型在所有三个场景中均优于12B Gemma 3,并且在斯洛文尼亚语LLM竞技场中与更大的商业GPT-4o性能相当,胜率超过60%。

🔬 方法详解

问题定义:现有的大型语言模型主要针对高资源语言(如英语)进行训练,在低资源语言(如斯洛文尼亚语)上的表现往往不尽如人意。这主要是由于训练数据不足,以及模型结构和训练方法与低资源语言的特性不匹配。因此,如何有效地将大型语言模型适配到低资源语言是一个重要的研究问题。

核心思路:本文的核心思路是通过多阶段的训练方法,包括持续预训练和监督微调,逐步将一个已有的、在高资源语言上训练的模型适配到低资源语言。这种方法利用了在高资源语言上预训练的模型的知识,并在此基础上进行针对性的训练,从而提高了模型在低资源语言上的性能。

技术框架:该方法主要包含以下几个阶段:1) 基于Gemma 3模型进行三阶段的持续预训练,使用斯洛文尼亚语、英语以及其他相关语言(波斯尼亚语、塞尔维亚语、克罗地亚语)的文本数据;2) 进行两阶段的监督微调(SFT),使用英语和斯洛文尼亚语的指令数据;3) 在多个斯洛文尼亚语数据集上进行评估,包括Slovenian-LLM-Eval、英语到斯洛文尼亚语的翻译以及斯洛文尼亚语LLM竞技场。

关键创新:该方法的关键创新在于针对低资源语言的特点,设计了多阶段的训练策略。通过持续预训练,模型能够学习到低资源语言的语言结构和语义信息。通过监督微调,模型能够更好地理解指令,并生成符合要求的文本。此外,该方法还使用了多种语言的文本数据进行预训练,从而提高了模型的泛化能力。

关键设计:在预训练阶段,使用了140B的tokens,包括斯洛文尼亚语、英语、波斯尼亚语、塞尔维亚语和克罗地亚语。在监督微调阶段,使用了超过20万的英语和斯洛文尼亚语示例。具体的损失函数和网络结构细节未在摘要中明确说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

GaMS3-12B在斯洛文尼亚语任务上表现出色,在Slovenian-LLM-Eval数据集、英语到斯洛文尼亚语翻译任务以及斯洛文尼亚语LLM竞技场中均优于12B Gemma 3模型。在斯洛文尼亚语LLM竞技场中,GaMS3-12B的胜率超过60%,与更大的商业模型GPT-4o性能相当。

🎯 应用场景

该研究成果可应用于各种斯洛文尼亚语相关的自然语言处理任务,例如机器翻译、文本摘要、问答系统等。它有助于提升斯洛文尼亚语的信息处理能力,促进斯洛文尼亚语文化和信息的传播。该方法也为其他低资源语言的LLM构建提供了借鉴。

📄 摘要(原文)

Large language models (LLMs) have become an essential tool for natural language processing and artificial intelligence in general. Current open-source models are primarily trained on English texts, resulting in poorer performance on less-resourced languages and cultures. We present a set of methodological approaches necessary for the successful adaptation of an LLM to a less-resourced language, and demonstrate them using the Slovene language. We present GaMS3-12B, a generative model for Slovene with 12 billion parameters, and demonstrate that it is the best-performing open-source model for Slovene within its parameter range. We adapted the model to the Slovene language using three-stage continual pre-training of the Gemma 3 model, followed by two-stage supervised fine-tuning (SFT). We trained the model on a combination of 140B Slovene, English, Bosnian, Serbian, and Croatian pretraining tokens, and over 200 thousand English and Slovene SFT examples. We evaluate GaMS3-12B on the Slovenian-LLM-Eval datasets, English-to-Slovene translation, and the Slovene LLM arena. We show that the described model outperforms 12B Gemma 3 across all three scenarios and performs comparably to much larger commercial GPT-4o in the Slovene LLM arena, achieving a win rate of over 60 %.