Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs

作者: Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov

分类: cs.LG, cs.AI

发布日期: 2025-09-26

💡 一句话要点

提出轻量级误差缓解策略，用于LLM后训练N:M激活稀疏化，提升推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 激活剪枝 N:M稀疏性 后训练量化 误差缓解 模型压缩 推理加速

📋 核心要点

现有LLM推理效率受限，权重剪枝虽有进展，但激活剪枝潜力未被充分挖掘，尤其是在动态压缩和I/O优化方面。
本文探索LLM后训练N:M激活剪枝，通过轻量级误差缓解和剪枝标准，构建硬件友好的基线，并研究多种稀疏模式。
实验证明，激活剪枝在同等稀疏度下优于权重剪枝，并发现8:16稀疏模式在灵活性和硬件实现上具有较好的平衡。

📝 摘要（中文）

本文针对大语言模型（LLM）高效推理的需求，深入研究了激活稀疏化技术。尽管半结构化（N:M）剪枝已广泛应用于权重，但其在激活剪枝中的应用仍有待探索，激活剪枝具有动态、输入自适应压缩以及降低I/O开销的潜力。本文对LLM中后训练N:M激活剪枝的方法进行了全面分析。实验表明，在同等稀疏度下，激活剪枝比权重剪枝更能保持生成能力。我们评估了轻量级、即插即用的误差缓解技术和剪枝标准，建立了强大的硬件友好基线，且只需极少的校准。此外，我们还探索了NVIDIA标准2:4之外的稀疏模式，发现16:32模式的性能几乎与非结构化稀疏性相当。考虑到灵活性和硬件实现复杂性之间的权衡，我们认为8:16模式是更优的选择。我们的研究结果为激活剪枝提供了有效的实用方法，并为未来硬件支持更灵活的稀疏模式提供了动力。

🔬 方法详解

问题定义：本文旨在解决大语言模型（LLM）推理效率低下的问题，尤其关注激活值带来的计算和存储开销。现有的权重剪枝方法虽然有效，但激活值的动态性和输入依赖性使其难以有效压缩，导致I/O瓶颈和计算效率受限。

核心思路：本文的核心思路是利用半结构化（N:M）剪枝技术对LLM的激活值进行稀疏化，从而减少计算量和内存占用。通过在后训练阶段进行激活剪枝，避免了重新训练的成本，同时利用轻量级的误差缓解策略来弥补剪枝带来的精度损失。选择N:M模式是为了在硬件友好性和灵活性之间取得平衡。

技术框架：本文的研究框架主要包括以下几个阶段：1) 选择预训练的LLM模型；2) 设计并实现不同的N:M激活剪枝策略，包括不同的N:M模式（如2:4, 8:16, 16:32）和剪枝标准；3) 应用轻量级的误差缓解技术，例如激活值缩放或微调；4) 在多个LLM和数据集上进行实验评估，比较不同剪枝策略和误差缓解技术的性能；5) 分析实验结果，确定最佳的N:M模式和误差缓解策略。

关键创新：本文的关键创新在于：1) 系统性地研究了N:M激活剪枝在LLM中的应用，并证明其优于权重剪枝；2) 提出了轻量级的误差缓解技术，能够在保持精度的同时实现高效的激活剪枝；3) 探索了多种N:M稀疏模式，并分析了它们在硬件实现和性能之间的权衡，为未来的硬件设计提供了指导。

关键设计：关键设计包括：1) 剪枝标准的选取，例如基于激活值的绝对值大小进行剪枝；2) N:M模式的选择，例如8:16模式被认为是硬件友好且性能较好的选择；3) 误差缓解技术的应用，例如对保留的激活值进行缩放，以补偿被剪枝的激活值带来的损失；4) 实验评估指标的选择，例如困惑度（perplexity）和生成文本的质量。

📊 实验亮点

实验结果表明，在同等稀疏度下，激活剪枝比权重剪枝更能保持LLM的生成能力。特别是，8:16稀疏模式在硬件友好性和性能之间取得了较好的平衡。此外，轻量级的误差缓解技术能够有效降低剪枝带来的精度损失，使得激活剪枝成为一种实用的LLM压缩方法。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景，例如移动设备上的本地部署、边缘计算环境以及对延迟敏感的在线服务。通过激活剪枝，可以显著降低LLM的计算和存储需求，使其能够在资源受限的环境中运行，并提高推理速度，从而提升用户体验。

📄 摘要（原文）

The demand for efficient large language model (LLM) inference has intensified the focus on sparsification techniques. While semi-structured (N:M) pruning is well-established for weights, its application to activation pruning remains underexplored despite its potential for dynamic, input-adaptive compression and reductions in I/O overhead. This work presents a comprehensive analysis of methods for post-training N:M activation pruning in LLMs. Across multiple LLMs, we demonstrate that pruning activations enables superior preservation of generative capabilities compared to weight pruning at equivalent sparsity levels. We evaluate lightweight, plug-and-play error mitigation techniques and pruning criteria, establishing strong hardware-friendly baselines that require minimal calibration. Furthermore, we explore sparsity patterns beyond NVIDIA's standard 2:4, showing that the 16:32 pattern achieves performance nearly on par with unstructured sparsity. However, considering the trade-off between flexibility and hardware implementation complexity, we focus on the 8:16 pattern as a superior candidate. Our findings provide both effective practical methods for activation pruning and a motivation for future hardware to support more flexible sparsity patterns. Our code is available https://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.md .

Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册