ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

📄 arXiv: 2510.05528 📥 PDF

作者: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang

分类: cs.LG

发布日期: 2026-04-06


💡 一句话要点

ARMOR:通过自适应矩阵分解实现高性能半结构化剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型剪枝 半结构化剪枝 矩阵分解 模型压缩 硬件加速 块坐标下降

📋 核心要点

  1. 现有LLM剪枝方法,尤其2:4稀疏剪枝,虽能加速推理,但常导致显著的性能下降。
  2. ARMOR通过矩阵分解,将权重矩阵分解为稀疏核心和块对角wrapper,以提升剪枝后的模型质量。
  3. 实验表明,ARMOR在Llama和Qwen模型上显著优于现有2:4剪枝方法,同时保持推理速度和内存优势。

📝 摘要(中文)

大型语言模型(LLMs)因其巨大的计算和内存需求而面临严峻的部署挑战。半结构化剪枝,特别是2:4稀疏性,为实际硬件加速提供了一条途径,但现有方法通常会导致显著的性能下降。为了弥合这一差距,我们引入了ARMOR(Adaptive Representation with Matrix-factORization),一种新颖的单次后训练剪枝算法。ARMOR不是直接剪枝权重,而是将每个权重矩阵分解为一个2:4稀疏核心,并用两个低开销的块对角矩阵包裹。与传统的2:4剪枝技术相比,这些wrapper充当高效的预处理和后处理误差校正器,提供了更大的灵活性来保持模型质量。稀疏核心和块对角wrapper通过块坐标下降算法选择,该算法最小化层级的代理损失。我们从理论上证明,这种优化保证收敛到代理损失小于或等于最先进剪枝算法的解。在Llama和Qwen模型系列上的实验表明,ARMOR在各种下游任务和困惑度评估中始终且显著优于最先进的2:4剪枝方法。ARMOR在保持2:4剪枝的推理加速和显著内存使用减少的同时,实现了卓越的性能,从而在模型压缩和任务准确性之间建立了更有效的权衡。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)部署时面临的计算和内存瓶颈问题。现有2:4半结构化剪枝方法虽然能够加速推理并减少内存占用,但往往会显著降低模型在下游任务上的性能,无法在模型压缩和精度之间取得良好的平衡。

核心思路:ARMOR的核心思路是通过自适应矩阵分解,将原始权重矩阵分解为一个2:4稀疏核心以及两个低开销的块对角wrapper矩阵。这些wrapper矩阵充当误差校正器,在剪枝前后对权重进行调整,从而弥补剪枝带来的性能损失,提升模型精度。

技术框架:ARMOR算法主要包含以下几个阶段:1) 权重矩阵分解:将每个权重矩阵分解为稀疏核心和块对角wrapper矩阵;2) 块坐标下降优化:通过块坐标下降算法,迭代优化稀疏核心和wrapper矩阵,最小化层级的代理损失;3) 模型评估:评估剪枝后模型在下游任务上的性能。

关键创新:ARMOR的关键创新在于引入了块对角wrapper矩阵,这些wrapper矩阵能够自适应地调整剪枝后的权重,从而更好地保留原始模型的知识。与传统的直接剪枝方法相比,ARMOR具有更大的灵活性,能够在保持稀疏性的同时,显著提升模型精度。

关键设计:ARMOR使用块坐标下降算法来优化稀疏核心和wrapper矩阵。代理损失函数的设计至关重要,它需要能够反映剪枝对模型性能的影响。此外,块对角wrapper矩阵的块大小也是一个重要的超参数,需要根据具体的模型和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARMOR在Llama和Qwen模型上进行了广泛的实验,结果表明,ARMOR在各种下游任务和困惑度评估中始终且显著优于最先进的2:4剪枝方法。具体而言,ARMOR能够在保持推理速度和内存优势的同时,显著提升模型精度,从而在模型压缩和任务准确性之间建立了更有效的权衡。

🎯 应用场景

ARMOR算法可广泛应用于大型语言模型的压缩和加速,尤其适用于资源受限的边缘设备或移动平台。通过ARMOR,可以在保证模型性能的前提下,显著降低模型的计算和内存需求,从而实现LLM在更多场景下的部署和应用。该研究对于推动LLM的普及具有重要意义。

📄 摘要(原文)

Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy