Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

📄 arXiv: 2604.01609v1 📥 PDF

作者: Ruoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng

分类: cs.CL

发布日期: 2026-04-02

备注: Under Review


💡 一句话要点

Swift-SVD:面向低秩LLM压缩的理论最优与高效实践框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低秩压缩 大型语言模型 奇异值分解 模型优化 激活感知

📋 核心要点

  1. 现有LLM压缩方法在重构误差和压缩效率上存在trade-off,难以兼顾理论最优和实际应用。
  2. Swift-SVD通过激活感知和闭式解,实现了理论最优、高效和数值稳定的低秩近似。
  3. 实验表明,Swift-SVD在多种LLM和数据集上超越现有方法,压缩速度提升显著。

📝 摘要(中文)

大型语言模型的部署受到静态权重和动态键值缓存的内存及带宽需求限制。基于SVD的压缩为降低这些成本提供了一种硬件友好的解决方案。然而,现有方法存在两个主要局限:一些方法在重构误差方面并非最优,而另一些方法在理论上最优但在实践中效率低下。本文提出了Swift-SVD,一种激活感知的闭式压缩框架,它同时保证了理论最优性、实践效率和数值稳定性。Swift-SVD增量式地聚合给定一批输入的输出激活的协方差,并在聚合后执行单次特征值分解,从而实现免训练、快速且最优的逐层低秩近似。我们采用有效秩来分析局部逐层可压缩性,并设计了一种动态秩分配策略,该策略共同考虑了局部重构损失和端到端层重要性。在六个LLM和八个数据集上的大量实验表明,Swift-SVD优于最先进的基线,实现了最佳的压缩精度,同时在端到端压缩时间上实现了3-70倍的加速。我们的代码将在接收后发布。

🔬 方法详解

问题定义:现有基于SVD的LLM压缩方法,要么在重构误差上并非最优,导致压缩后的模型精度下降;要么虽然理论上最优,但计算复杂度高,压缩速度慢,难以实际应用。因此,如何在保证压缩精度的前提下,提高压缩效率,是本文要解决的核心问题。

核心思路:Swift-SVD的核心思路是利用激活感知的协方差矩阵的特征值分解,实现最优的低秩近似。通过增量式地聚合输出激活的协方差,避免了对整个数据集进行多次迭代计算,从而提高了压缩效率。同时,采用闭式解保证了数值稳定性,避免了迭代优化过程中的不稳定因素。

技术框架:Swift-SVD的整体框架包括以下几个主要阶段:1) 数据收集:收集一批具有代表性的输入数据;2) 激活聚合:对于每一层,增量式地聚合输入数据经过该层后输出激活的协方差矩阵;3) 特征值分解:对聚合后的协方差矩阵进行特征值分解,得到奇异值和奇异向量;4) 低秩近似:根据奇异值的大小,选择合适的秩,并利用奇异向量进行低秩近似;5) 模型替换:将原始权重矩阵替换为低秩近似后的矩阵。

关键创新:Swift-SVD的关键创新在于:1) 激活感知的协方差矩阵聚合,能够更准确地捕捉模型在实际应用中的数据分布;2) 闭式解的低秩近似,避免了迭代优化,保证了数值稳定性和压缩效率;3) 动态秩分配策略,根据每一层的可压缩性和重要性,自适应地分配秩,从而在保证整体性能的前提下,最大化压缩率。

关键设计:Swift-SVD的关键设计包括:1) 增量式协方差矩阵聚合的实现细节,例如如何有效地更新协方差矩阵,避免数值溢出;2) 动态秩分配策略的具体算法,例如如何定义层的可压缩性和重要性,以及如何根据这些指标来分配秩;3) 有效秩的计算方法,用于分析每一层的可压缩性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Swift-SVD在六个LLM(包括LLaMA、OPT等)和八个数据集上进行了广泛的实验,结果表明,Swift-SVD在保持最佳压缩精度的同时,实现了3-70倍的端到端压缩加速,显著优于现有的SOTA基线方法。这证明了Swift-SVD在理论最优性和实际效率上的优越性。

🎯 应用场景

Swift-SVD在资源受限的设备上部署大型语言模型具有广泛的应用前景,例如移动设备、边缘计算设备等。通过降低模型大小和计算复杂度,可以实现更快的推理速度和更低的功耗,从而提升用户体验。此外,该方法还可以应用于模型压缩的其他领域,例如图像识别、语音识别等。

📄 摘要(原文)

The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.