3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

作者: Mehdi Makni, Xiang Meng, Rahul Mazumder

分类: cs.LG, stat.ML

发布日期: 2026-03-02

备注: The Thirty-ninth Annual Conference on Neural Information Processing Systems

🔗 代码/项目: GITHUB

💡 一句话要点

提出3BASiL-TM算法框架，用于大语言模型的稀疏加低秩分解压缩，提升性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型压缩 稀疏加低秩分解 模型优化 ADMM算法 Transformer匹配

📋 核心要点

现有LLM的稀疏加低秩分解方法存在性能下降问题，难以达到与稠密模型相当的精度。
提出3BASiL-TM框架，通过3BASiL算法和Transformer匹配细化步骤，优化稀疏和低秩分量。
实验表明，3BASiL-TM在压缩LLaMA-8B模型时，显著降低了困惑度差距，并提高了压缩速度。

📝 摘要（中文）

本文提出了一种高效的单次后训练方法3BASiL-TM，用于大语言模型(LLM)的稀疏加低秩(S + LR)分解，旨在解决现有方法相比稠密模型性能显著下降的问题。该方法首先引入了一种新颖的三块交替方向乘子法(ADMM)，称为3BASiL，以最小化层级的重建误差，并保证收敛性。然后，设计了一个高效的transformer匹配(TM)细化步骤，联合优化transformer层之间的稀疏和低秩分量。此步骤最小化了一种新的内存高效损失，该损失在transformer级别对齐输出。值得注意的是，TM过程是通用的，因为它可以增强任何(S + LR)分解，包括纯稀疏性。实验结果表明，与现有方法相比，在(2:4稀疏+64低秩)配置下，3BASiL-TM将相对于稠密LLaMA-8B模型的WikiText2困惑度差距降低了30%以上。此外，与SOTA(S + LR)方法相比，我们的方法在A100 GPU上的压缩运行时间快了2.5倍以上。代码已开源。

🔬 方法详解

问题定义：论文旨在解决大语言模型(LLM)的稀疏加低秩(S+LR)分解压缩过程中，现有方法性能显著下降的问题。现有方法在压缩后，模型精度损失较大，难以在保持性能的同时实现高效压缩。

核心思路：论文的核心思路是通过一种新颖的算法框架，更有效地分解和优化LLM的权重矩阵，从而在保证模型性能的前提下，实现更高的压缩率。该框架包含两个关键步骤：一是使用3BASiL算法进行层级的S+LR分解，二是使用Transformer匹配(TM)方法进行跨层的联合优化。

技术框架：3BASiL-TM框架主要包含两个阶段： 1. 3BASiL分解：使用3-Block ADMM算法（3BASiL）对LLM的每一层权重矩阵进行S+LR分解，最小化重建误差。 2. Transformer匹配(TM)细化：通过最小化一个内存高效的损失函数，对Transformer层之间的稀疏和低秩分量进行联合优化，以对齐Transformer层的输出。

关键创新：论文的关键创新在于： 1. 3BASiL算法：提出了一种新的3-Block ADMM算法，用于更有效地进行S+LR分解，并具有收敛性保证。 2. Transformer匹配(TM)方法：设计了一种新的Transformer匹配方法，可以跨Transformer层联合优化稀疏和低秩分量，从而进一步提高压缩模型的性能。 3. 内存高效损失函数：TM方法中使用了一种内存高效的损失函数，使得可以在资源有限的硬件上进行训练。

关键设计： 1. 3BASiL算法：具体ADMM的三个Block如何设计，以及如何保证收敛性（具体数学公式未知）。 2. Transformer匹配(TM)损失函数：设计了一种新的损失函数，用于衡量Transformer层输出的差异，并指导稀疏和低秩分量的优化。该损失函数需要具有内存高效的特性。 3. 稀疏模式：实验中使用了(2:4)稀疏模式，即每4个权重中保留2个。低秩分量的秩设置为64。

🖼️ 关键图片

📊 实验亮点

实验结果表明，3BASiL-TM在压缩LLaMA-8B模型时，在(2:4稀疏+64低秩)配置下，相对于稠密模型的WikiText2困惑度差距降低了30%以上，优于现有方法。此外，该方法在A100 GPU上的压缩运行时间比SOTA方法快2.5倍以上，表明其具有更高的压缩效率。

🎯 应用场景

该研究成果可应用于各种需要部署大语言模型的场景，例如移动设备、边缘计算设备等资源受限的环境。通过高效的模型压缩，可以在这些设备上运行更大规模的LLM，从而提升用户体验，并拓展LLM的应用范围。此外，该方法也有助于降低LLM的存储和传输成本。

📄 摘要（原文）

Sparse plus Low-Rank $(\mathbf{S} + \mathbf{LR})$ decomposition of Large Language Models (LLMs) has emerged as a promising direction in model compression, aiming to decompose pre-trained model weights into a sum of sparse and low-rank matrices $(\mathbf{W} \approx \mathbf{S} + \mathbf{LR})$. Despite recent progress, existing methods often suffer from substantial performance degradation compared to dense models. In this work, we introduce 3BASiL-TM, an efficient one-shot post-training method for $(\mathbf{S} + \mathbf{LR})$ decomposition of LLMs that addresses this gap. Our approach first introduces a novel 3-Block Alternating Direction Method of Multipliers (ADMM) method, termed 3BASiL, to minimize the layer-wise reconstruction error with convergence guarantees. We then design an efficient transformer-matching (TM) refinement step that jointly optimizes the sparse and low-rank components across transformer layers. This step minimizes a novel memory-efficient loss that aligns outputs at the transformer level. Notably, the TM procedure is universal as it can enhance any $(\mathbf{S} + \mathbf{LR})$ decomposition, including pure sparsity. Our numerical experiments show that 3BASiL-TM reduces the WikiText2 perplexity gap relative to dense LLaMA-8B model by over 30% under a (2:4 Sparse + 64 LR) configuration, compared to prior methods. Moreover, our method achieves over 2.5x faster compression runtime on an A100 GPU compared to SOTA $(\mathbf{S} + \mathbf{LR})$ method. Our code is available at https://github.com/mazumder-lab/3BASiL.

3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理