PT$^2$-LLM: Post-Training Ternarization for Large Language Models
作者: Xianglong Yan, Chengzhu Bao, Zhiteng Li, Tianao Zhang, Kaicheng Yang, Haotong Qin, Ruobing Xie, Xingwu Sun, Yulun Zhang
分类: cs.LG, cs.AI
发布日期: 2025-09-27
🔗 代码/项目: GITHUB
💡 一句话要点
PT$^2$-LLM:面向大语言模型的后训练三值化框架,实现高效压缩与加速。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练量化 三值化 模型压缩 模型加速
📋 核心要点
- 大语言模型部署受限于高内存和计算需求,后训练量化中的三值化方法面临无训练优化和异常值量化难题。
- 提出PT$^2$-LLM框架,核心是非对称三值量化器,通过迭代三值拟合和激活感知网格对齐进行两阶段优化。
- 实验表明,PT$^2$-LLM在低内存成本下,性能媲美SOTA 2-bit PTQ方法,并加速预填充和解码过程。
📝 摘要(中文)
大语言模型(LLMs)在各种任务中表现出令人印象深刻的能力,但其庞大的内存和计算需求阻碍了部署。三值化作为一种有前景的压缩技术,因其显著的尺寸缩减和高计算效率而备受关注。然而,由于无训练参数优化以及异常值和分散权重带来的量化困难,其在后训练量化(PTQ)设置中的潜力仍未被充分探索。为了解决这些问题,我们提出了PT$^2$-LLM,一个专为LLMs量身定制的后训练三值化框架。其核心是一个非对称三值量化器,配备了一个两阶段细化流程:(1)迭代三值拟合(ITF),在最优三值网格构建和灵活舍入之间交替,以最小化量化误差;(2)激活感知网格对齐(AGA),进一步细化三值网格,以更好地匹配全精度输出。此外,我们提出了一种即插即用的基于结构相似性的重排序(SSR)策略,该策略利用列间结构相似性来简化量化并减轻异常值的影响,从而进一步提高整体性能。大量实验表明,PT$^2$-LLM在内存成本更低的情况下,提供了与最先进的(SOTA) 2-bit PTQ方法相比具有竞争力的性能,同时加速了预填充和解码,从而实现了端到端加速。代码和模型将在https://github.com/XIANGLONGYAN/PT2-LLM上提供。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLMs)部署时面临的内存和计算资源瓶颈问题。现有的后训练量化(PTQ)方法,特别是三值化方法,在LLMs上应用时面临挑战,主要体现在两个方面:一是缺乏有效的训练方法来优化三值化参数,二是LLMs中存在的异常值和分散的权重分布使得量化过程更加困难,导致性能下降。
核心思路:论文的核心思路是通过设计一种无需训练的后训练三值化框架PT$^2$-LLM,来克服上述挑战。该框架的核心在于一个非对称三值量化器,并通过两阶段的细化流程以及结构相似性重排序策略,来最小化量化误差,提高量化精度,从而在保证性能的同时,实现对LLMs的高效压缩和加速。
技术框架:PT$^2$-LLM框架主要包含以下几个关键模块: 1. 非对称三值量化器:作为量化的基础,将全精度权重映射到{-1, 0, 1}三个值。 2. 迭代三值拟合(ITF):通过交替优化三值网格和灵活的舍入策略,最小化量化误差。 3. 激活感知网格对齐(AGA):根据激活函数的输出,进一步调整三值网格,使其更好地匹配全精度输出。 4. 结构相似性重排序(SSR):通过分析权重矩阵列间的结构相似性,重新排列权重,以减轻异常值的影响,并简化量化过程。
关键创新:论文的关键创新在于: 1. 两阶段细化流程(ITF+AGA):通过迭代优化三值网格和激活感知对齐,更精确地拟合全精度权重,显著降低了量化误差。 2. 结构相似性重排序(SSR):利用权重矩阵的结构信息,缓解了异常值带来的量化困难,提高了量化稳定性。 3. 非对称三值量化器:相较于对称量化器,非对称量化器能够更好地适应LLMs中非对称的权重分布。
关键设计: 1. 迭代三值拟合(ITF):通过迭代的方式,交替优化三值网格的阈值和舍入策略,以最小化量化误差。具体来说,首先固定阈值,根据阈值进行舍入,然后固定舍入结果,优化阈值,重复此过程。 2. 激活感知网格对齐(AGA):根据激活函数的统计信息,调整三值网格的阈值,使其更好地匹配激活函数的输出分布。例如,可以使用激活函数的均值和方差来调整阈值。 3. 结构相似性重排序(SSR):使用余弦相似度等指标来衡量权重矩阵列间的结构相似性,然后根据相似性对列进行重排序。重排序的目标是使相似的列相邻,从而减少异常值的影响。
📊 实验亮点
实验结果表明,PT$^2$-LLM在多个LLM模型上取得了显著的性能提升。例如,在Llama-7B模型上,PT$^2$-LLM实现了与SOTA 2-bit PTQ方法相当的性能,同时内存成本更低。此外,PT$^2$-LLM还加速了预填充和解码过程,实现了端到端的速度提升。具体而言,与全精度模型相比,PT$^2$-LLM在解码阶段实现了显著的加速。
🎯 应用场景
PT$^2$-LLM具有广泛的应用前景,可用于在资源受限的设备上部署大型语言模型,例如移动设备、嵌入式系统和边缘计算设备。该技术能够显著降低LLM的存储需求和计算复杂度,从而实现更快的推理速度和更低的功耗。此外,PT$^2$-LLM还可以应用于云计算平台,以提高LLM服务的效率和可扩展性。
📄 摘要(原文)
Large Language Models (LLMs) have shown impressive capabilities across diverse tasks, but their large memory and compute demands hinder deployment. Ternarization has gained attention as a promising compression technique, delivering substantial size reduction and high computational efficiency. However, its potential in the post-training quantization (PTQ) setting remains underexplored, due to the challenge of training-free parameter optimization and the quantization difficulty posed by outliers and dispersed weights. To address these issues, we propose PT$^2$-LLM, a post-training ternarization framework tailored for LLMs. At its core is an Asymmetric Ternary Quantizer equipped with a two-stage refinement pipeline: (1) Iterative Ternary Fitting (ITF), which alternates between optimal ternary grid construction and flexible rounding to minimize quantization error, and (2) Activation-aware Grid Alignment (AGA), which further refines the ternary grid to better match full-precision outputs. In addition, we propose a plug-and-play Structural Similarity-based Reordering (SSR) strategy that leverages inter-column structural similarity to ease quantization and mitigate outlier effects, further enhancing overall performance. Extensive experiments demonstrate that PT$^2$-LLM delivers competitive performance against state-of-the-art (SOTA) 2-bit PTQ methods with lower memory cost, while also accelerating both prefill and decoding to achieve end-to-end speedup. The code and models will be available at https://github.com/XIANGLONGYAN/PT2-LLM.