ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

作者: Lawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang

分类: cs.LG

发布日期: 2026-04-06

💡 一句话要点

ARMOR：通过自适应矩阵分解实现高性能半结构化剪枝

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型剪枝 半结构化剪枝 矩阵分解 模型压缩 硬件加速 块坐标下降

📋 核心要点

现有LLM剪枝方法，尤其2:4稀疏剪枝，虽能加速推理，但常导致显著的性能下降。
ARMOR通过矩阵分解，将权重矩阵分解为稀疏核心和块对角wrapper，以提升剪枝后的模型质量。
实验表明，ARMOR在Llama和Qwen模型上显著优于现有2:4剪枝方法，同时保持推理速度和内存优势。

📝 摘要（中文）

大型语言模型（LLMs）因其巨大的计算和内存需求而面临严峻的部署挑战。半结构化剪枝，特别是2:4稀疏性，为实际硬件加速提供了一条途径，但现有方法通常会导致显著的性能下降。为了弥合这一差距，我们引入了ARMOR（Adaptive Representation with Matrix-factORization），一种新颖的单次后训练剪枝算法。ARMOR不是直接剪枝权重，而是将每个权重矩阵分解为一个2:4稀疏核心，并用两个低开销的块对角矩阵包裹。与传统的2:4剪枝技术相比，这些wrapper充当高效的预处理和后处理误差校正器，提供了更大的灵活性来保持模型质量。稀疏核心和块对角wrapper通过块坐标下降算法选择，该算法最小化层级的代理损失。我们从理论上证明，这种优化保证收敛到代理损失小于或等于最先进剪枝算法的解。在Llama和Qwen模型系列上的实验表明，ARMOR在各种下游任务和困惑度评估中始终且显著优于最先进的2:4剪枝方法。ARMOR在保持2:4剪枝的推理加速和显著内存使用减少的同时，实现了卓越的性能，从而在模型压缩和任务准确性之间建立了更有效的权衡。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）部署时面临的计算和内存瓶颈问题。现有2:4半结构化剪枝方法虽然能够加速推理并减少内存占用，但往往会显著降低模型在下游任务上的性能，无法在模型压缩和精度之间取得良好的平衡。

核心思路：ARMOR的核心思路是通过自适应矩阵分解，将原始权重矩阵分解为一个2:4稀疏核心以及两个低开销的块对角wrapper矩阵。这些wrapper矩阵充当误差校正器，在剪枝前后对权重进行调整，从而弥补剪枝带来的性能损失，提升模型精度。

技术框架：ARMOR算法主要包含以下几个阶段：1) 权重矩阵分解：将每个权重矩阵分解为稀疏核心和块对角wrapper矩阵；2) 块坐标下降优化：通过块坐标下降算法，迭代优化稀疏核心和wrapper矩阵，最小化层级的代理损失；3) 模型评估：评估剪枝后模型在下游任务上的性能。

关键创新：ARMOR的关键创新在于引入了块对角wrapper矩阵，这些wrapper矩阵能够自适应地调整剪枝后的权重，从而更好地保留原始模型的知识。与传统的直接剪枝方法相比，ARMOR具有更大的灵活性，能够在保持稀疏性的同时，显著提升模型精度。

关键设计：ARMOR使用块坐标下降算法来优化稀疏核心和wrapper矩阵。代理损失函数的设计至关重要，它需要能够反映剪枝对模型性能的影响。此外，块对角wrapper矩阵的块大小也是一个重要的超参数，需要根据具体的模型和任务进行调整。

🖼️ 关键图片

📊 实验亮点

ARMOR在Llama和Qwen模型上进行了广泛的实验，结果表明，ARMOR在各种下游任务和困惑度评估中始终且显著优于最先进的2:4剪枝方法。具体而言，ARMOR能够在保持推理速度和内存优势的同时，显著提升模型精度，从而在模型压缩和任务准确性之间建立了更有效的权衡。

🎯 应用场景

ARMOR算法可广泛应用于大型语言模型的压缩和加速，尤其适用于资源受限的边缘设备或移动平台。通过ARMOR，可以在保证模型性能的前提下，显著降低模型的计算和内存需求，从而实现LLM在更多场景下的部署和应用。该研究对于推动LLM的普及具有重要意义。

📄 摘要（原文）

Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we introduce ARMOR: (Adaptive Representation with Matrix-factORization), a novel one-shot post-training pruning algorithm. Instead of directly pruning weights, ARMOR factorizes each weight matrix into a 2:4 sparse core wrapped by two low-overhead, block diagonal matrices. These wrappers act as efficient pre and post-transformation error correctors, offering greater flexibility to preserve model quality compared to conventional 2:4 pruning techniques. The sparse core and block diagonal wrappers are chosen through a block coordinate descent algorithm that minimizes a layer-wise proxy loss. We theoretically prove this optimization is guaranteed to converge to a solution with a proxy loss less than or equal to state-of-the-art pruning algorithms. Experiments on Llama (Touvron et al., 2023; Dubey et al., 2024) and Qwen (Yang et al., 2025) model families demonstrate that ARMOR consistently and significantly outperforms state-of-the-art 2:4 pruning methods across a wide range of downstream tasks and perplexity evaluations. ARMOR achieves this superior performance while retaining the inference speedups and substantial memory usage reductions of 2:4 pruning, establishing a more effective trade-off between model compression and task accuracy

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理