Progressive Residual Warmup for Language Model Pretraining
作者: Tianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang
分类: cs.CL
发布日期: 2026-03-05
🔗 代码/项目: GITHUB
💡 一句话要点
提出渐进残差预热(ProRes)方法,加速并稳定Transformer语言模型预训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型预训练 Transformer 残差连接 渐进式学习 模型优化 深度学习 预热策略
📋 核心要点
- 现有大型语言模型预训练面临稳定性和收敛速度的挑战,尤其是在训练初期,深层网络容易受到不稳定因素的影响。
- ProRes的核心思想是让浅层网络先稳定下来,再逐步让深层网络参与训练,模拟了由浅入深的认知过程。
- 实验结果表明,ProRes能够加速收敛,提高泛化能力,并在下游任务中取得更好的性能,验证了其有效性。
📝 摘要(中文)
Transformer架构是现代大型语言模型的基础,因此其预训练的稳定性和收敛速度至关重要。受顺序堆叠层之间逻辑依赖关系的启发,我们提出了用于语言模型预训练的渐进残差预热(ProRes)。ProRes通过将每一层的残差乘以一个标量来实现“早期层先学习”的理念,该标量从0逐渐预热到1,而更深层的预热步骤更长。通过这种方式,更深层在早期层进入更稳定的状态后再参与学习。我们通过各种模型规模以及归一化和初始化方案的预训练实验证明了ProRes的有效性。综合分析表明,ProRes不仅稳定了预训练,还引入了独特的优化轨迹,从而实现了更快的收敛速度、更强的泛化能力和更好的下游性能。我们的代码可在https://github.com/dandingsky/ProRes获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型预训练过程中稳定性和收敛速度的问题。现有方法在训练初期,由于深层网络参数未充分训练,容易出现梯度爆炸或消失等问题,导致训练不稳定,收敛速度慢。
核心思路:论文的核心思路是采用“早期层先学习”的策略,通过渐进式地增加每一层残差连接的权重,使得浅层网络先进行充分训练,稳定后再逐步让深层网络参与训练。这种方式模拟了人类学习的由浅入深的过程,有助于提高训练的稳定性和收敛速度。
技术框架:ProRes方法主要通过修改Transformer模型的训练方式来实现。具体来说,对于Transformer模型的每一层,将其残差连接乘以一个标量α_i,该标量从0逐渐增加到1,其中i表示层数。浅层的α_i增加速度快,深层的α_i增加速度慢,从而实现浅层先学习,深层后学习的效果。整体训练流程与标准的Transformer预训练流程一致,只是在残差连接处引入了渐进式的权重调整。
关键创新:ProRes的关键创新在于提出了渐进式残差预热的思想,通过控制每一层残差连接的权重,实现了对网络不同层级的训练速度的精细控制。与传统的预热方法不同,ProRes不是对整个网络进行统一的预热,而是根据层级的不同进行差异化的预热,从而更好地适应了深层网络的训练特点。
关键设计:ProRes的关键设计在于α_i的计算方式。论文中采用线性预热的方式,即α_i = min(1, t / warmup_steps_i),其中t表示当前训练步数,warmup_steps_i表示第i层的预热步数。warmup_steps_i的设置与层数i相关,通常深层的warmup_steps_i更大,从而保证深层预热时间更长。具体的warmup_steps_i可以根据经验或通过实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ProRes方法在多种模型规模和不同的归一化、初始化方案下均能有效提升预训练的稳定性和收敛速度。例如,在相同训练条件下,使用ProRes预训练的模型能够更快地达到相同的性能水平,并且在下游任务中表现出更好的泛化能力。具体性能提升幅度未知,需要参考论文中的实验数据。
🎯 应用场景
ProRes方法可以广泛应用于各种基于Transformer架构的语言模型预训练任务中,例如BERT、GPT等。该方法能够提高预训练的稳定性和收敛速度,从而降低训练成本,并提升模型的性能。此外,ProRes还可以应用于其他类型的深度神经网络的训练中,具有一定的通用性。
📄 摘要(原文)
Transformer architectures serve as the backbone for most modern Large Language Models, therefore their pretraining stability and convergence speed are of central concern. Motivated by the logical dependency of sequentially stacked layers, we propose Progressive Residual Warmup (ProRes) for language model pretraining. ProRes implements an "early layer learns first" philosophy by multiplying each layer's residual with a scalar that gradually warms up from 0 to 1, with deeper layers taking longer warmup steps. In this way, deeper layers wait for early layers to settle into a more stable regime before contributing to learning. We demonstrate the effectiveness of ProRes through pretraining experiments across various model scales, as well as normalization and initialization schemes. Comprehensive analysis shows that ProRes not only stabilizes pretraining but also introduces a unique optimization trajectory, leading to faster convergence, stronger generalization and better downstream performance. Our code is available at https://github.com/dandingsky/ProRes.