ELO: Efficient Layer-Specific Optimization for Continual Pretraining of Multilingual LLMs
作者: HanGyeol Yoo, ChangSu Choi, Minjun Kim, Seohyun Song, SeungWoo Song, Inho Won, Jongyoul Park, Cheoneum Park, KyungTae Lim
分类: cs.CL
发布日期: 2026-01-07
备注: 12 pages, Accepted to EACL 2026 (Industrial Track)
💡 一句话要点
ELO:面向多语言LLM持续预训练的高效层特异性优化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 持续预训练 层特异性优化 高效训练 层对齐 灾难性遗忘 语言模型
📋 核心要点
- 传统多语言LLM持续预训练计算成本高昂,且容易导致源语言性能下降。
- ELO方法通过仅训练特定层(首尾层)来减少计算量,并采用层对齐策略来保持源语言性能。
- 实验表明,ELO方法在提升目标语言性能的同时,显著加速训练并有效保留源语言能力。
📝 摘要(中文)
本文提出了一种高效的层特异性优化(ELO)方法,旨在增强多语言大型语言模型(MLLM)中特定语言的持续预训练(CP)。该方法解决了传统CP中常见的高计算成本和源语言性能下降的挑战。ELO方法包括两个主要阶段:(1)ELO预训练,其中一小部分特定层(实验表明是至关重要的第一层和最后一层)从原始MLLM中分离出来,并使用目标语言进行训练。这不仅显著减少了可训练参数的数量,还减少了前向传递期间计算的总参数,从而最大限度地减少了GPU内存消耗并加速了训练过程。(2)层对齐,其中新训练的层被重新整合到原始模型中,然后在小数据集上进行简短的完全微调步骤以对齐参数。实验结果表明,与现有方法相比,ELO方法实现了高达6.46倍的训练速度提升,同时在定性基准测试中将目标语言性能提高了高达6.2%,并有效保留了源语言(英语)的能力。
🔬 方法详解
问题定义:多语言大型语言模型(MLLM)的持续预训练(CP)旨在使模型适应新的语言或领域。然而,传统的CP方法通常需要对整个模型进行微调,这导致计算成本高昂,并且容易导致源语言(如英语)的性能下降,即“灾难性遗忘”现象。因此,如何在降低计算成本的同时,保持甚至提升目标语言性能,并避免源语言性能下降,是本文要解决的关键问题。
核心思路:本文的核心思路是只对MLLM中的特定层进行优化,而不是对整个模型进行微调。作者通过实验发现,模型的首层和尾层对于语言的适应性至关重要。因此,ELO方法选择性地分离并训练这些关键层,从而显著减少了需要训练的参数数量和计算量。同时,为了保证新训练的层与原始模型的兼容性,作者提出了层对齐策略,通过一个简短的微调步骤来整合这些层。
技术框架:ELO方法包含两个主要阶段:(1)ELO预训练:从原始MLLM中分离出指定的层(通常是第一层和最后一层),并使用目标语言的数据集对这些层进行训练。这一步旨在使这些层适应目标语言的特征。(2)层对齐:将训练好的层重新整合回原始模型,并使用一个小型数据集对整个模型进行微调。这一步旨在对齐新训练的层与原始模型的参数,从而保证模型的整体性能。
关键创新:ELO方法最重要的技术创新点在于其层特异性优化策略。与传统的全模型微调方法相比,ELO方法只训练模型中的一小部分层,从而显著降低了计算成本。此外,ELO方法通过层对齐策略,有效地避免了源语言性能的下降,并保证了模型的整体性能。
关键设计:ELO方法的关键设计包括:(1)层的选择:作者通过实验确定了模型的首层和尾层对于语言适应性至关重要,因此选择这些层进行训练。(2)层对齐策略:作者使用一个小型数据集对整个模型进行微调,以对齐新训练的层与原始模型的参数。微调的学习率和训练轮数需要根据具体任务进行调整。(3)损失函数:在ELO预训练阶段,可以使用标准的语言建模损失函数,如交叉熵损失。在层对齐阶段,可以使用与预训练阶段相同的损失函数,或者根据具体任务选择合适的损失函数。
📊 实验亮点
实验结果表明,ELO方法在训练速度上相比现有方法提升了高达6.46倍,同时在定性基准测试中将目标语言性能提高了高达6.2%。此外,ELO方法能够有效保留源语言(英语)的能力,避免了灾难性遗忘现象。这些结果表明,ELO方法是一种高效且有效的多语言LLM持续预训练方法。
🎯 应用场景
ELO方法可广泛应用于多语言LLM的持续预训练,尤其适用于资源受限的场景。例如,可以利用该方法快速地将一个已有的MLLM适配到一种新的小语种上,而无需从头开始训练整个模型。该方法还可以用于个性化语言模型的训练,例如,针对特定领域或用户的语言习惯进行优化。未来,该方法有望推动多语言LLM在更多领域的应用,例如机器翻译、跨语言信息检索和多语言对话系统。
📄 摘要(原文)
We propose an efficient layer-specific optimization (ELO) method designed to enhance continual pretraining (CP) for specific languages in multilingual large language models (MLLMs). This approach addresses the common challenges of high computational cost and degradation of source language performance associated with traditional CP. The ELO method consists of two main stages: (1) ELO Pretraining, where a small subset of specific layers, identified in our experiments as the critically important first and last layers, are detached from the original MLLM and trained with the target language. This significantly reduces not only the number of trainable parameters but also the total parameters computed during the forward pass, minimizing GPU memory consumption and accelerating the training process. (2) Layer Alignment, where the newly trained layers are reintegrated into the original model, followed by a brief full fine-tuning step on a small dataset to align the parameters. Experimental results demonstrate that the ELO method achieves a training speedup of up to 6.46 times compared to existing methods, while improving target language performance by up to 6.2\% on qualitative benchmarks and effectively preserving source language (English) capabilities.