Spectral Compact Training: Pre-Training Large Language Models via Permanent Truncated SVD and Stiefel QR Retraction

📄 arXiv: 2604.00733v1 📥 PDF

作者: Björn Roman Kohlberger

分类: cs.LG, cs.AI

发布日期: 2026-04-01

备注: 8 pages, 3 figures, 4 tables. Patent pending: Irish Application PTIE20260000000219. Code at https://github.com/EctoSpace/SCT


💡 一句话要点

提出谱紧凑训练(SCT),通过截断SVD和Stiefel流形QR回撤预训练大语言模型,显著降低内存占用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 谱紧凑训练 截断SVD 低秩分解 大语言模型 内存优化

📋 核心要点

  1. 训练大型语言模型的主要瓶颈是内存墙,现有方法难以在消费级硬件上高效训练。
  2. 提出谱紧凑训练(SCT),使用截断SVD分解权重矩阵,并在训练过程中保持矩阵的紧凑表示。
  3. 实验表明,SCT能显著降低内存占用,在Steam Deck上训练70B参数模型,并在GPU上提升训练吞吐量。

📝 摘要(中文)

本文提出谱紧凑训练(SCT),一种用永久截断SVD分解替换稠密权重矩阵的方法,即W = U diag(s) V^T,在训练或推理过程中无需物化完整的稠密矩阵。梯度通过紧凑的谱因子进行标准反向传播,并且在每次优化器步骤后,U和V通过QR分解回撤到Stiefel流形。SCT在rank为32时,每个MLP层可实现高达199倍的内存缩减,从而能够在Steam Deck掌机上进行700亿参数架构的完整训练步骤(峰值内存为7.2 GB,而使用Adam进行稠密FP32训练则为1,245 GB)。在SmolLM2-1.7B上的rank扫描实验(rank 32-256,2000步,NVIDIA A100)表明,所有测试的rank都收敛到相同的损失下限(约4.2-4.5),表明学习率调度而非MLP rank是主要瓶颈。Rank 128成为效率的最佳点,以11.7倍的MLP压缩实现了最低的困惑度。在rank 32时,GPU内存下降46%,而训练吞吐量翻倍。

🔬 方法详解

问题定义:现有的大型语言模型训练方法需要巨大的内存资源,使得在消费级硬件上训练大型模型变得不可行。稠密权重矩阵是内存消耗的主要来源,传统的训练方法需要存储和更新这些庞大的矩阵,导致内存墙问题。

核心思路:SCT的核心思路是用低秩矩阵分解来近似原始的稠密权重矩阵,从而减少内存占用。具体来说,使用截断的奇异值分解(SVD)将权重矩阵分解为三个矩阵的乘积,其中中间的矩阵是对角矩阵,只保留最大的几个奇异值,从而实现矩阵的压缩。

技术框架:SCT的整体框架包括以下几个步骤:1) 初始化:使用截断SVD分解初始化权重矩阵;2) 前向传播:使用分解后的矩阵进行前向计算;3) 反向传播:计算梯度并更新分解后的矩阵;4) Stiefel流形回撤:使用QR分解将U和V矩阵回撤到Stiefel流形,保证矩阵的正交性。整个过程无需物化完整的稠密矩阵。

关键创新:SCT的关键创新在于使用永久的截断SVD分解来表示权重矩阵,并在训练过程中保持矩阵的紧凑表示。此外,使用Stiefel流形回撤保证了分解矩阵的正交性,提高了训练的稳定性。

关键设计:SCT的关键设计包括:1) 截断SVD的秩的选择:秩的选择需要在内存占用和模型性能之间进行权衡;2) Stiefel流形回撤方法:使用QR分解进行回撤,保证矩阵的正交性;3) 学习率调度:合适的学习率调度对于模型的收敛至关重要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SmolLM2-1.7B模型上,rank 32时,SCT实现了11.7倍的MLP压缩,GPU内存占用降低46%,训练吞吐量翻倍。在Steam Deck掌机上,SCT成功训练了70B参数的模型,峰值内存占用仅为7.2GB,而稠密FP32训练需要1245GB。Rank扫描实验表明,所有测试的rank都收敛到相似的损失下限。

🎯 应用场景

SCT可应用于资源受限环境下的LLM训练和部署,例如移动设备、边缘计算设备等。该方法降低了对硬件的要求,使得更多研究者和开发者能够参与到大型语言模型的训练和应用中。此外,SCT还可以用于模型压缩,减少模型的大小,提高推理速度。

📄 摘要(原文)

The memory wall remains the primary bottleneck for training large language models on consumer hardware. We introduce Spectral Compact Training (SCT), a method that replaces dense weight matrices with permanent truncated SVD factors W = U diag(s) V^T, where the full dense matrix is never materialized during training or inference. Gradients flow through the compact spectral factors via standard backpropagation, and U, V are retracted to the Stiefel manifold via QR decomposition after each optimizer step. SCT achieves up to 199x memory reduction per MLP layer at rank 32, enabling full training steps of 70B-parameter architectures on a Steam Deck handheld (7.2 GB peak memory vs. 1,245 GB for dense FP32 training with Adam). Rank-sweep experiments on SmolLM2-1.7B (ranks 32-256, 2000 steps, NVIDIA A100) show that all tested ranks converge to the same loss floor (~4.2-4.5), identifying the learning rate schedule -- not MLP rank -- as the primary bottleneck. Rank 128 emerges as the efficiency sweet spot at 11.7x MLP compression with the lowest perplexity. GPU memory drops 46% at rank 32 while training throughput doubles.