EstLLM: Enhancing Estonian Capabilities in Multilingual LLMs via Continued Pretraining and Post-Training
作者: Aleksei Dorkin, Taido Purason, Emil Kalbaliyev, Hele-Andra Kuulmets, Marii Ojastu, Mark Fišel, Tanel Alumäe, Eleri Aedmaa, Krister Kruusmaa, Kairit Sirts
分类: cs.CL, cs.AI
发布日期: 2026-03-02
💡 一句话要点
EstLLM:通过持续预训练和后训练增强多语言LLM中的爱沙尼亚语能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 持续预训练 爱沙尼亚语 低资源语种 指令遵循
📋 核心要点
- 现有大型语言模型在小语种上的表现不佳,主要是因为训练数据集中英语数据占主导地位。
- 论文提出通过持续预训练(CPT)增加模型对爱沙尼亚语的曝光,并结合后训练对齐,提升模型在该语种上的能力。
- 实验结果表明,EstLLM在爱沙尼亚语的各项基准测试中均优于原始模型,同时保持了英语性能。
📝 摘要(中文)
大型语言模型(LLMs)主要在以英语为中心的数据上进行训练,导致较小语种的性能不均衡。本文研究了持续预训练(CPT)是否能显著提高预训练多语言LLM中的爱沙尼亚语能力,同时保持其英语和通用推理性能。以Llama 3.1 8B作为主要基础模型,我们在一个混合数据集上执行CPT,该数据集增加了爱沙尼亚语的曝光度,同时通过英语重放和包含代码、数学和指令式数据来近似原始训练分布。随后,我们应用监督微调、偏好优化和聊天向量合并来引入强大的指令遵循行为。在全面的爱沙尼亚语基准测试套件上的评估表明,与原始基础模型及其指令调整变体相比,在语言能力、知识、推理、翻译质量和指令遵循方面都有持续的提升,同时保持了在英语基准测试上的竞争性能。这些发现表明,CPT与适当平衡的数据混合,以及后训练对齐,可以显著提高预训练多语言LLM中的单语能力。
🔬 方法详解
问题定义:论文旨在解决多语言大型语言模型(LLMs)在低资源语种,特别是爱沙尼亚语上的性能不足问题。现有方法主要依赖于以英语为中心的数据进行训练,导致模型在其他语种上的表现不佳,无法充分满足当地用户的需求。
核心思路:论文的核心思路是通过持续预训练(CPT)的方式,让预训练的多语言LLM更多地接触爱沙尼亚语数据,从而提升其在该语种上的能力。同时,为了避免模型在英语等其他语种上的性能下降,论文采用了精心设计的混合数据集,包含英语重放数据以及代码、数学等通用数据。
技术框架:整体框架包括三个主要阶段:1) 持续预训练(CPT):在Llama 3.1 8B模型的基础上,使用混合数据集进行CPT,增加爱沙尼亚语的曝光。2) 后训练对齐:包括监督微调(SFT)、偏好优化(Preference Optimization)和聊天向量合并(Chat Vector Merging),以提升模型的指令遵循能力。3) 评估:在爱沙尼亚语和英语基准测试上评估模型的性能。
关键创新:论文的关键创新在于采用了平衡的混合数据集进行持续预训练,该数据集既能增加模型对爱沙尼亚语的曝光,又能通过英语重放和通用数据保持模型在其他语种和通用任务上的性能。此外,论文还探索了后训练对齐技术在提升模型指令遵循能力方面的作用。与现有方法相比,该方法更注重在提升特定语种能力的同时,保持模型的通用性。
关键设计:混合数据集的设计是关键。它包括:1) 爱沙尼亚语数据:用于提升模型在该语种上的能力。2) 英语重放数据:用于防止模型在英语上的性能下降。3) 代码、数学和指令式数据:用于保持模型的通用推理和指令遵循能力。具体的数据比例和训练参数(如学习率、batch size等)需要根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EstLLM在爱沙尼亚语的各项基准测试中均取得了显著提升,包括语言能力、知识、推理、翻译质量和指令遵循等方面。同时,EstLLM在英语基准测试中保持了与原始模型相当的性能。这些结果验证了持续预训练和后训练对齐在提升多语言LLM单语能力方面的有效性。
🎯 应用场景
该研究成果可应用于开发更高效、更适应本地化需求的爱沙尼亚语LLM,从而提升爱沙尼亚语在机器翻译、文本生成、智能客服等领域的应用水平。此外,该研究方法也为其他低资源语种的LLM开发提供了借鉴,有助于推动多语言自然语言处理的发展。
📄 摘要(原文)
Large language models (LLMs) are predominantly trained on English-centric data, resulting in uneven performance for smaller languages. We study whether continued pretraining (CPT) can substantially improve Estonian capabilities in a pretrained multilingual LLM while preserving its English and general reasoning performance. Using Llama 3.1 8B as the main base model, we perform CPT on a mixture that increases Estonian exposure while approximating the original training distribution through English replay and the inclusion of code, mathematics, and instruction-like data. We subsequently apply supervised fine-tuning, preference optimization, and chat vector merging to introduce robust instruction-following behavior. Evaluation on a comprehensive suite of Estonian benchmarks shows consistent gains in linguistic competence, knowledge, reasoning, translation quality, and instruction-following compared to the original base model and its instruction-tuned variant, while maintaining competitive performance on English benchmarks. These findings indicate that CPT, with an appropriately balanced data mixture, together with post-training alignment, can substantially improve single-language capabilities in pretrained multilingual LLMs.