3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

📄 arXiv: 2603.01376v1 📥 PDF

作者: Mehdi Makni, Xiang Meng, Rahul Mazumder

分类: cs.LG, stat.ML

发布日期: 2026-03-02

备注: The Thirty-ninth Annual Conference on Neural Information Processing Systems

🔗 代码/项目: GITHUB


💡 一句话要点

提出3BASiL-TM算法框架,用于大语言模型的稀疏加低秩分解压缩,提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型压缩 稀疏加低秩分解 模型优化 ADMM算法 Transformer匹配

📋 核心要点

  1. 现有LLM的稀疏加低秩分解方法存在性能下降问题,难以达到与稠密模型相当的精度。
  2. 提出3BASiL-TM框架,通过3BASiL算法和Transformer匹配细化步骤,优化稀疏和低秩分量。
  3. 实验表明,3BASiL-TM在压缩LLaMA-8B模型时,显著降低了困惑度差距,并提高了压缩速度。

📝 摘要(中文)

本文提出了一种高效的单次后训练方法3BASiL-TM,用于大语言模型(LLM)的稀疏加低秩(S + LR)分解,旨在解决现有方法相比稠密模型性能显著下降的问题。该方法首先引入了一种新颖的三块交替方向乘子法(ADMM),称为3BASiL,以最小化层级的重建误差,并保证收敛性。然后,设计了一个高效的transformer匹配(TM)细化步骤,联合优化transformer层之间的稀疏和低秩分量。此步骤最小化了一种新的内存高效损失,该损失在transformer级别对齐输出。值得注意的是,TM过程是通用的,因为它可以增强任何(S + LR)分解,包括纯稀疏性。实验结果表明,与现有方法相比,在(2:4稀疏+64低秩)配置下,3BASiL-TM将相对于稠密LLaMA-8B模型的WikiText2困惑度差距降低了30%以上。此外,与SOTA(S + LR)方法相比,我们的方法在A100 GPU上的压缩运行时间快了2.5倍以上。代码已开源。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)的稀疏加低秩(S+LR)分解压缩过程中,现有方法性能显著下降的问题。现有方法在压缩后,模型精度损失较大,难以在保持性能的同时实现高效压缩。

核心思路:论文的核心思路是通过一种新颖的算法框架,更有效地分解和优化LLM的权重矩阵,从而在保证模型性能的前提下,实现更高的压缩率。该框架包含两个关键步骤:一是使用3BASiL算法进行层级的S+LR分解,二是使用Transformer匹配(TM)方法进行跨层的联合优化。

技术框架:3BASiL-TM框架主要包含两个阶段: 1. 3BASiL分解:使用3-Block ADMM算法(3BASiL)对LLM的每一层权重矩阵进行S+LR分解,最小化重建误差。 2. Transformer匹配(TM)细化:通过最小化一个内存高效的损失函数,对Transformer层之间的稀疏和低秩分量进行联合优化,以对齐Transformer层的输出。

关键创新:论文的关键创新在于: 1. 3BASiL算法:提出了一种新的3-Block ADMM算法,用于更有效地进行S+LR分解,并具有收敛性保证。 2. Transformer匹配(TM)方法:设计了一种新的Transformer匹配方法,可以跨Transformer层联合优化稀疏和低秩分量,从而进一步提高压缩模型的性能。 3. 内存高效损失函数:TM方法中使用了一种内存高效的损失函数,使得可以在资源有限的硬件上进行训练。

关键设计: 1. 3BASiL算法:具体ADMM的三个Block如何设计,以及如何保证收敛性(具体数学公式未知)。 2. Transformer匹配(TM)损失函数:设计了一种新的损失函数,用于衡量Transformer层输出的差异,并指导稀疏和低秩分量的优化。该损失函数需要具有内存高效的特性。 3. 稀疏模式:实验中使用了(2:4)稀疏模式,即每4个权重中保留2个。低秩分量的秩设置为64。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,3BASiL-TM在压缩LLaMA-8B模型时,在(2:4稀疏+64低秩)配置下,相对于稠密模型的WikiText2困惑度差距降低了30%以上,优于现有方法。此外,该方法在A100 GPU上的压缩运行时间比SOTA方法快2.5倍以上,表明其具有更高的压缩效率。

🎯 应用场景

该研究成果可应用于各种需要部署大语言模型的场景,例如移动设备、边缘计算设备等资源受限的环境。通过高效的模型压缩,可以在这些设备上运行更大规模的LLM,从而提升用户体验,并拓展LLM的应用范围。此外,该方法也有助于降低LLM的存储和传输成本。

📄 摘要(原文)

Sparse plus Low-Rank $(\mathbf{S} + \mathbf{LR})$ decomposition of Large Language Models (LLMs) has emerged as a promising direction in model compression, aiming to decompose pre-trained model weights into a sum of sparse and low-rank matrices $(\mathbf{W} \approx \mathbf{S} + \mathbf{LR})$. Despite recent progress, existing methods often suffer from substantial performance degradation compared to dense models. In this work, we introduce 3BASiL-TM, an efficient one-shot post-training method for $(\mathbf{S} + \mathbf{LR})$ decomposition of LLMs that addresses this gap. Our approach first introduces a novel 3-Block Alternating Direction Method of Multipliers (ADMM) method, termed 3BASiL, to minimize the layer-wise reconstruction error with convergence guarantees. We then design an efficient transformer-matching (TM) refinement step that jointly optimizes the sparse and low-rank components across transformer layers. This step minimizes a novel memory-efficient loss that aligns outputs at the transformer level. Notably, the TM procedure is universal as it can enhance any $(\mathbf{S} + \mathbf{LR})$ decomposition, including pure sparsity. Our numerical experiments show that 3BASiL-TM reduces the WikiText2 perplexity gap relative to dense LLaMA-8B model by over 30% under a (2:4 Sparse + 64 LR) configuration, compared to prior methods. Moreover, our method achieves over 2.5x faster compression runtime on an A100 GPU compared to SOTA $(\mathbf{S} + \mathbf{LR})$ method. Our code is available at https://github.com/mazumder-lab/3BASiL.