PT$^2$-LLM: Post-Training Ternarization for Large Language Models

作者: Xianglong Yan, Chengzhu Bao, Zhiteng Li, Tianao Zhang, Kaicheng Yang, Haotong Qin, Ruobing Xie, Xingwu Sun, Yulun Zhang

分类: cs.LG, cs.AI

发布日期: 2025-09-27

🔗 代码/项目: GITHUB

💡 一句话要点

PT$^2$-LLM：面向大语言模型的后训练三值化框架，实现高效压缩与加速。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练量化 三值化 模型压缩 模型加速

📋 核心要点

大语言模型部署受限于高内存和计算需求，后训练量化中的三值化方法面临无训练优化和异常值量化难题。
提出PT$^2$-LLM框架，核心是非对称三值量化器，通过迭代三值拟合和激活感知网格对齐进行两阶段优化。
实验表明，PT$^2$-LLM在低内存成本下，性能媲美SOTA 2-bit PTQ方法，并加速预填充和解码过程。

📝 摘要（中文）

大语言模型(LLMs)在各种任务中表现出令人印象深刻的能力，但其庞大的内存和计算需求阻碍了部署。三值化作为一种有前景的压缩技术，因其显著的尺寸缩减和高计算效率而备受关注。然而，由于无训练参数优化以及异常值和分散权重带来的量化困难，其在后训练量化(PTQ)设置中的潜力仍未被充分探索。为了解决这些问题，我们提出了PT$^2$-LLM，一个专为LLMs量身定制的后训练三值化框架。其核心是一个非对称三值量化器，配备了一个两阶段细化流程：(1)迭代三值拟合(ITF)，在最优三值网格构建和灵活舍入之间交替，以最小化量化误差；(2)激活感知网格对齐(AGA)，进一步细化三值网格，以更好地匹配全精度输出。此外，我们提出了一种即插即用的基于结构相似性的重排序(SSR)策略，该策略利用列间结构相似性来简化量化并减轻异常值的影响，从而进一步提高整体性能。大量实验表明，PT$^2$-LLM在内存成本更低的情况下，提供了与最先进的(SOTA) 2-bit PTQ方法相比具有竞争力的性能，同时加速了预填充和解码，从而实现了端到端加速。代码和模型将在https://github.com/XIANGLONGYAN/PT2-LLM上提供。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLMs）部署时面临的内存和计算资源瓶颈问题。现有的后训练量化（PTQ）方法，特别是三值化方法，在LLMs上应用时面临挑战，主要体现在两个方面：一是缺乏有效的训练方法来优化三值化参数，二是LLMs中存在的异常值和分散的权重分布使得量化过程更加困难，导致性能下降。

核心思路：论文的核心思路是通过设计一种无需训练的后训练三值化框架PT$^2$-LLM，来克服上述挑战。该框架的核心在于一个非对称三值量化器，并通过两阶段的细化流程以及结构相似性重排序策略，来最小化量化误差，提高量化精度，从而在保证性能的同时，实现对LLMs的高效压缩和加速。

技术框架：PT$^2$-LLM框架主要包含以下几个关键模块： 1. 非对称三值量化器：作为量化的基础，将全精度权重映射到{-1, 0, 1}三个值。 2. 迭代三值拟合（ITF）：通过交替优化三值网格和灵活的舍入策略，最小化量化误差。 3. 激活感知网格对齐（AGA）：根据激活函数的输出，进一步调整三值网格，使其更好地匹配全精度输出。 4. 结构相似性重排序（SSR）：通过分析权重矩阵列间的结构相似性，重新排列权重，以减轻异常值的影响，并简化量化过程。

关键创新：论文的关键创新在于： 1. 两阶段细化流程（ITF+AGA）：通过迭代优化三值网格和激活感知对齐，更精确地拟合全精度权重，显著降低了量化误差。 2. 结构相似性重排序（SSR）：利用权重矩阵的结构信息，缓解了异常值带来的量化困难，提高了量化稳定性。 3. 非对称三值量化器：相较于对称量化器，非对称量化器能够更好地适应LLMs中非对称的权重分布。

关键设计： 1. 迭代三值拟合（ITF）：通过迭代的方式，交替优化三值网格的阈值和舍入策略，以最小化量化误差。具体来说，首先固定阈值，根据阈值进行舍入，然后固定舍入结果，优化阈值，重复此过程。 2. 激活感知网格对齐（AGA）：根据激活函数的统计信息，调整三值网格的阈值，使其更好地匹配激活函数的输出分布。例如，可以使用激活函数的均值和方差来调整阈值。 3. 结构相似性重排序（SSR）：使用余弦相似度等指标来衡量权重矩阵列间的结构相似性，然后根据相似性对列进行重排序。重排序的目标是使相似的列相邻，从而减少异常值的影响。

📊 实验亮点

实验结果表明，PT$^2$-LLM在多个LLM模型上取得了显著的性能提升。例如，在Llama-7B模型上，PT$^2$-LLM实现了与SOTA 2-bit PTQ方法相当的性能，同时内存成本更低。此外，PT$^2$-LLM还加速了预填充和解码过程，实现了端到端的速度提升。具体而言，与全精度模型相比，PT$^2$-LLM在解码阶段实现了显著的加速。

🎯 应用场景

PT$^2$-LLM具有广泛的应用前景，可用于在资源受限的设备上部署大型语言模型，例如移动设备、嵌入式系统和边缘计算设备。该技术能够显著降低LLM的存储需求和计算复杂度，从而实现更快的推理速度和更低的功耗。此外，PT$^2$-LLM还可以应用于云计算平台，以提高LLM服务的效率和可扩展性。

📄 摘要（原文）

Large Language Models (LLMs) have shown impressive capabilities across diverse tasks, but their large memory and compute demands hinder deployment. Ternarization has gained attention as a promising compression technique, delivering substantial size reduction and high computational efficiency. However, its potential in the post-training quantization (PTQ) setting remains underexplored, due to the challenge of training-free parameter optimization and the quantization difficulty posed by outliers and dispersed weights. To address these issues, we propose PT$^2$-LLM, a post-training ternarization framework tailored for LLMs. At its core is an Asymmetric Ternary Quantizer equipped with a two-stage refinement pipeline: (1) Iterative Ternary Fitting (ITF), which alternates between optimal ternary grid construction and flexible rounding to minimize quantization error, and (2) Activation-aware Grid Alignment (AGA), which further refines the ternary grid to better match full-precision outputs. In addition, we propose a plug-and-play Structural Similarity-based Reordering (SSR) strategy that leverages inter-column structural similarity to ease quantization and mitigate outlier effects, further enhancing overall performance. Extensive experiments demonstrate that PT$^2$-LLM delivers competitive performance against state-of-the-art (SOTA) 2-bit PTQ methods with lower memory cost, while also accelerating both prefill and decoding to achieve end-to-end speedup. The code and models will be available at https://github.com/XIANGLONGYAN/PT2-LLM.

PT$^2$-LLM: Post-Training Ternarization for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册