Fluctuation-based Adaptive Structured Pruning for Large Language Models
作者: Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang
分类: cs.CL, cs.AI
发布日期: 2023-12-19
备注: Accepted to AAAI 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于波动自适应结构化剪枝FLAP,用于压缩大型语言模型且无需重训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 结构化剪枝 免重训练 模型压缩 波动剪枝
📋 核心要点
- 现有LLM剪枝方法多为非结构化剪枝,依赖特定硬件加速,通用性受限。
- FLAP基于权重移除后输出特征图的波动程度,自适应地进行结构化剪枝。
- 实验表明,FLAP在多种语言基准上优于现有免重训练的结构化剪枝方法。
📝 摘要(中文)
本文提出了一种针对大型语言模型(LLMs)的全新免重训练的结构化剪枝框架,名为FLAP(基于波动的自适应结构化剪枝)。网络剪枝是解决LLM部署和推理过程中巨大计算资源需求的一种有前景的方法。免重训练对于LLM剪枝方法至关重要。然而,现有的几乎所有LLM免重训练剪枝方法都侧重于非结构化剪枝,这需要特定的硬件支持才能加速。FLAP通过有效减少存储和提高推理速度,实现了硬件友好性。为了对LLM进行有效的结构化剪枝,我们强调了三个需要特别关注的关键要素:构建结构化重要性指标,自适应地搜索全局压缩模型,以及实施补偿机制以减轻性能损失。首先,FLAP基于波动剪枝指标确定当移除权重列时输出特征图是否容易恢复。然后,它标准化重要性分数,以自适应地确定全局压缩模型结构。最后,FLAP添加额外的偏置项,以使用基线值恢复输出特征图。我们在各种语言基准上彻底评估了我们的方法。在没有任何重训练的情况下,我们的方法显著优于最先进的方法,包括LLM-Pruner和Wanda在结构化剪枝中的扩展。
🔬 方法详解
问题定义:大型语言模型(LLMs)的部署和推理需要大量的计算资源。网络剪枝是一种有效的压缩模型的方法,但现有的免重训练剪枝方法大多集中于非结构化剪枝。非结构化剪枝虽然可以减少参数数量,但需要专门的硬件支持才能实现加速,限制了其通用性。因此,如何设计一种免重训练且硬件友好的结构化剪枝方法,是本文要解决的关键问题。
核心思路:FLAP的核心思路是基于权重移除后输出特征图的波动程度来评估权重的重要性。如果移除某个权重列后,输出特征图能够容易地恢复到原始状态,则认为该权重列的重要性较低,可以被安全地剪除。通过这种方式,FLAP能够自适应地识别并移除冗余的结构化权重,从而实现模型的压缩。
技术框架:FLAP框架主要包含三个阶段:1) 结构化重要性评估:基于波动剪枝指标,评估每个权重列的重要性。该指标衡量移除权重列后,输出特征图的可恢复程度。2) 自适应模型结构搜索:标准化重要性分数,并根据预设的压缩比例,自适应地确定全局压缩模型的结构。3) 补偿机制:通过添加额外的偏置项,补偿由于权重移除而造成的输出特征图的损失,从而减轻性能下降。
关键创新:FLAP的关键创新在于提出了基于波动的结构化重要性评估指标。与传统的基于权值大小的剪枝方法不同,FLAP关注的是权重对输出特征图的影响,能够更准确地识别冗余的权重。此外,FLAP还通过自适应模型结构搜索和补偿机制,进一步提高了剪枝的性能。
关键设计:FLAP使用波动剪枝指标来衡量权重的重要性,该指标定义为移除权重列后,输出特征图与原始特征图之间的差异。具体来说,FLAP计算移除第i列权重后,输出特征图的L2范数变化,作为该列权重的重要性得分。然后,FLAP对所有权重列的重要性得分进行标准化,并根据预设的剪枝比例,选择重要性得分最低的权重列进行剪枝。为了补偿剪枝带来的性能损失,FLAP在剪枝后添加额外的偏置项,以恢复输出特征图的基线值。
📊 实验亮点
实验结果表明,FLAP在多种语言基准上显著优于现有的免重训练结构化剪枝方法,包括LLM-Pruner和Wanda的结构化剪枝扩展。在不进行任何重训练的情况下,FLAP能够实现与最先进方法相当甚至更好的性能,同时显著降低模型大小和提高推理速度。
🎯 应用场景
FLAP可应用于各种需要部署大型语言模型的场景,例如移动设备、边缘计算设备等。通过降低模型大小和提高推理速度,FLAP能够有效降低计算资源需求,使得LLM能够在资源受限的环境中运行。此外,FLAP的免重训练特性也大大降低了剪枝的成本,使其更易于应用。
📄 摘要(原文)
Network Pruning is a promising way to address the huge computing resource demands of the deployment and inference of Large Language Models (LLMs). Retraining-free is important for LLMs' pruning methods. However, almost all of the existing retraining-free pruning approaches for LLMs focus on unstructured pruning, which requires specific hardware support for acceleration. In this paper, we propose a novel retraining-free structured pruning framework for LLMs, named FLAP (FLuctuation-based Adaptive Structured Pruning). It is hardware-friendly by effectively reducing storage and enhancing inference speed. For effective structured pruning of LLMs, we highlight three critical elements that demand the utmost attention: formulating structured importance metrics, adaptively searching the global compressed model, and implementing compensation mechanisms to mitigate performance loss. First, FLAP determines whether the output feature map is easily recoverable when a column of weight is removed, based on the fluctuation pruning metric. Then it standardizes the importance scores to adaptively determine the global compressed model structure. At last, FLAP adds additional bias terms to recover the output feature maps using the baseline values. We thoroughly evaluate our approach on a variety of language benchmarks. Without any retraining, our method significantly outperforms the state-of-the-art methods, including LLM-Pruner and the extension of Wanda in structured pruning. The code is released at https://github.com/CASIA-IVA-Lab/FLAP.