Stochastic activations

📄 arXiv: 2509.22358v1 📥 PDF

作者: Maria Lomeli, Matthijs Douze, Gergely Szilvasy, Loic Cabannes, Jade Copet, Sainbayar Sukhbaatar, Jason Weston, Gabriel Synnaeve, Pierre-Emmanuel Mazaré, Hervé Jégou

分类: cs.LG, cs.AI

发布日期: 2025-09-26


💡 一句话要点

提出随机激活函数,提升大语言模型推理速度并增强生成文本多样性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 随机激活函数 大语言模型 ReLU SILU 推理加速 文本生成 模型优化 梯度消失

📋 核心要点

  1. 传统ReLU激活函数在负输入时梯度为零,阻碍了模型优化,尤其是在大型语言模型中。
  2. 论文提出随机激活函数,在训练时随机选择SILU或ReLU,克服ReLU的梯度消失问题。
  3. 实验表明,预训练时使用随机激活函数,微调时使用ReLU,能显著提升推理速度和生成文本多样性。

📝 摘要(中文)

本文提出了一种新颖的策略——随机激活函数。该策略在大语言模型的前馈层中随机选择多个非线性函数之一。具体来说,根据伯努利分布的采样结果,选择SILU或RELU激活函数。这种策略规避了与RELU相关的优化问题,即负输入的恒定形状阻碍了梯度流动。我们通过两种方式利用这种策略:(1)在预训练期间使用随机激活函数,并在微调时使用RELU,以便在推理时提供稀疏的潜在向量。这减少了推理FLOPs,并显著提高了CPU速度。有趣的是,这比从头开始使用RELU激活函数进行训练的效果要好得多。(2)我们评估了随机激活函数在生成任务中的表现。该策略表现良好:仅略逊于最佳确定性非线性函数,即SILU与温度缩放的组合。这为现有策略提供了一种替代方案,通过一种可控的方式来增加生成文本的多样性。

🔬 方法详解

问题定义:现有的大型语言模型在使用ReLU激活函数时,由于ReLU在负输入时输出为零,导致梯度消失,影响模型的训练效果。尤其是在模型规模增大时,这个问题更加突出。此外,如何在保证模型性能的同时,提升推理速度和生成文本的多样性也是一个挑战。

核心思路:论文的核心思路是在训练过程中引入随机性,通过随机选择SILU或ReLU激活函数,来克服ReLU的梯度消失问题。SILU激活函数在负输入时具有非零梯度,可以缓解梯度消失问题。在推理阶段,使用ReLU激活函数可以获得稀疏的激活,从而提升推理速度。

技术框架:该方法主要包含两个阶段:预训练阶段和微调阶段。在预训练阶段,使用随机激活函数,即以一定的概率选择SILU或ReLU激活函数。在微调阶段,使用ReLU激活函数。在推理阶段,直接使用微调后的模型,利用ReLU的稀疏性来加速推理。整体流程简单易懂,易于实现。

关键创新:该方法最重要的创新点在于引入了随机激活函数的概念,通过在训练过程中引入随机性,来克服ReLU的梯度消失问题。与传统的ReLU激活函数相比,随机激活函数可以更好地训练大型语言模型,并提升模型的性能。此外,该方法还可以在推理阶段利用ReLU的稀疏性来加速推理。

关键设计:论文的关键设计包括:(1) 随机选择SILU或ReLU激活函数的概率分布,通常使用伯努利分布。(2) 预训练阶段和微调阶段的学习率设置。(3) 在生成任务中,可以使用温度缩放来控制生成文本的多样性。具体参数设置需要根据具体的任务和数据集进行调整。

📊 实验亮点

实验结果表明,使用随机激活函数进行预训练,然后使用ReLU进行微调,可以显著提升模型的性能和推理速度。与从头开始使用ReLU训练的模型相比,该方法取得了更好的效果。此外,在生成任务中,随机激活函数可以生成更多样化的文本,性能接近SILU与温度缩放的组合。

🎯 应用场景

该研究成果可应用于各种需要快速推理和多样性文本生成的大型语言模型场景,例如智能对话机器人、文本摘要、机器翻译等。通过提升推理速度,可以降低计算成本,提高用户体验。通过增强生成文本的多样性,可以使模型生成更自然、更丰富的文本。

📄 摘要(原文)

We introduce stochastic activations. This novel strategy randomly selects between several non-linear functions in the feed-forward layer of a large language model. In particular, we choose between SILU or RELU depending on a Bernoulli draw. This strategy circumvents the optimization problem associated with RELU, namely, the constant shape for negative inputs that prevents the gradient flow. We leverage this strategy in two ways: (1) We use stochastic activations during pre-training and fine-tune the model with RELU, which is used at inference time to provide sparse latent vectors. This reduces the inference FLOPs and translates into a significant speedup in the CPU. Interestingly, this leads to much better results than training from scratch with the RELU activation function. (2) We evaluate stochastic activations for generation. This strategy performs reasonably well: it is only slightly inferior to the best deterministic non-linearity, namely SILU combined with temperature scaling. This offers an alternative to existing strategies by providing a controlled way to increase the diversity of the generated text.