Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs

📄 arXiv: 2509.22166v1 📥 PDF

作者: Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov

分类: cs.LG, cs.AI

发布日期: 2025-09-26


💡 一句话要点

提出轻量级误差缓解策略,用于LLM后训练N:M激活稀疏化,提升推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活剪枝 N:M稀疏性 后训练量化 误差缓解 模型压缩 推理加速

📋 核心要点

  1. 现有LLM推理效率受限,权重剪枝虽有进展,但激活剪枝潜力未被充分挖掘,尤其是在动态压缩和I/O优化方面。
  2. 本文探索LLM后训练N:M激活剪枝,通过轻量级误差缓解和剪枝标准,构建硬件友好的基线,并研究多种稀疏模式。
  3. 实验证明,激活剪枝在同等稀疏度下优于权重剪枝,并发现8:16稀疏模式在灵活性和硬件实现上具有较好的平衡。

📝 摘要(中文)

本文针对大语言模型(LLM)高效推理的需求,深入研究了激活稀疏化技术。尽管半结构化(N:M)剪枝已广泛应用于权重,但其在激活剪枝中的应用仍有待探索,激活剪枝具有动态、输入自适应压缩以及降低I/O开销的潜力。本文对LLM中后训练N:M激活剪枝的方法进行了全面分析。实验表明,在同等稀疏度下,激活剪枝比权重剪枝更能保持生成能力。我们评估了轻量级、即插即用的误差缓解技术和剪枝标准,建立了强大的硬件友好基线,且只需极少的校准。此外,我们还探索了NVIDIA标准2:4之外的稀疏模式,发现16:32模式的性能几乎与非结构化稀疏性相当。考虑到灵活性和硬件实现复杂性之间的权衡,我们认为8:16模式是更优的选择。我们的研究结果为激活剪枝提供了有效的实用方法,并为未来硬件支持更灵活的稀疏模式提供了动力。

🔬 方法详解

问题定义:本文旨在解决大语言模型(LLM)推理效率低下的问题,尤其关注激活值带来的计算和存储开销。现有的权重剪枝方法虽然有效,但激活值的动态性和输入依赖性使其难以有效压缩,导致I/O瓶颈和计算效率受限。

核心思路:本文的核心思路是利用半结构化(N:M)剪枝技术对LLM的激活值进行稀疏化,从而减少计算量和内存占用。通过在后训练阶段进行激活剪枝,避免了重新训练的成本,同时利用轻量级的误差缓解策略来弥补剪枝带来的精度损失。选择N:M模式是为了在硬件友好性和灵活性之间取得平衡。

技术框架:本文的研究框架主要包括以下几个阶段:1) 选择预训练的LLM模型;2) 设计并实现不同的N:M激活剪枝策略,包括不同的N:M模式(如2:4, 8:16, 16:32)和剪枝标准;3) 应用轻量级的误差缓解技术,例如激活值缩放或微调;4) 在多个LLM和数据集上进行实验评估,比较不同剪枝策略和误差缓解技术的性能;5) 分析实验结果,确定最佳的N:M模式和误差缓解策略。

关键创新:本文的关键创新在于:1) 系统性地研究了N:M激活剪枝在LLM中的应用,并证明其优于权重剪枝;2) 提出了轻量级的误差缓解技术,能够在保持精度的同时实现高效的激活剪枝;3) 探索了多种N:M稀疏模式,并分析了它们在硬件实现和性能之间的权衡,为未来的硬件设计提供了指导。

关键设计:关键设计包括:1) 剪枝标准的选取,例如基于激活值的绝对值大小进行剪枝;2) N:M模式的选择,例如8:16模式被认为是硬件友好且性能较好的选择;3) 误差缓解技术的应用,例如对保留的激活值进行缩放,以补偿被剪枝的激活值带来的损失;4) 实验评估指标的选择,例如困惑度(perplexity)和生成文本的质量。

📊 实验亮点

实验结果表明,在同等稀疏度下,激活剪枝比权重剪枝更能保持LLM的生成能力。特别是,8:16稀疏模式在硬件友好性和性能之间取得了较好的平衡。此外,轻量级的误差缓解技术能够有效降低剪枝带来的精度损失,使得激活剪枝成为一种实用的LLM压缩方法。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景,例如移动设备上的本地部署、边缘计算环境以及对延迟敏感的在线服务。通过激活剪枝,可以显著降低LLM的计算和存储需求,使其能够在资源受限的环境中运行,并提高推理速度,从而提升用户体验。

📄 摘要(原文)

The demand for efficient large language model (LLM) inference has intensified the focus on sparsification techniques. While semi-structured (N:M) pruning is well-established for weights, its application to activation pruning remains underexplored despite its potential for dynamic, input-adaptive compression and reductions in I/O overhead. This work presents a comprehensive analysis of methods for post-training N:M activation pruning in LLMs. Across multiple LLMs, we demonstrate that pruning activations enables superior preservation of generative capabilities compared to weight pruning at equivalent sparsity levels. We evaluate lightweight, plug-and-play error mitigation techniques and pruning criteria, establishing strong hardware-friendly baselines that require minimal calibration. Furthermore, we explore sparsity patterns beyond NVIDIA's standard 2:4, showing that the 16:32 pattern achieves performance nearly on par with unstructured sparsity. However, considering the trade-off between flexibility and hardware implementation complexity, we focus on the 8:16 pattern as a superior candidate. Our findings provide both effective practical methods for activation pruning and a motivation for future hardware to support more flexible sparsity patterns. Our code is available https://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.md .