FreeAct: Freeing Activations for LLM Quantization
作者: Xiaohao Liu, Xiaobo Xia, Manyi Zhang, Ji-Fu Li, Xianzhi Yu, Fei Shen, Xiu Su, See-Kiong Ng, Tat-Seng Chua
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-03-02
备注: 26 pages, 18 figures, 2 tables
💡 一句话要点
FreeAct:释放激活的LLM量化方法,提升扩散和多模态LLM性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化 大型语言模型 激活函数 多模态学习 扩散模型 模型压缩 低比特量化
📋 核心要点
- 现有基于变换的量化方法对激活施加静态的一对一变换约束,忽略了不同token类型激活的动态分布。
- FreeAct通过解耦激活变换与权重,为不同token类型分配不同的变换矩阵,从而适应动态激活差异。
- 实验表明,FreeAct在扩散LLM和多模态LLM上显著优于基线,性能提升高达5.3%。
📝 摘要(中文)
量化对于缓解大型语言模型(LLM)的巨大内存和计算开销至关重要。虽然新兴的基于变换的方法通过使用正交矩阵将特征空间投影到更平滑的流形上,从而成功地增强了量化效果,但它们通常强制执行严格的一对一变换约束。这种静态方法未能考虑到输入激活中固有的动态模式,特别是在扩散LLM(dLLM)和多模态LLM(MLLM)中,其中不同的token类型表现出不同的分布。为了改进这一点,我们提出了FreeAct,这是一种新颖的量化框架,它放宽了静态的一对一约束,以适应动态激活差异。从理论上讲,我们利用激活的秩亏性质来推导出一个超越简单逆矩阵的解空间,从而能够将激活变换与权重解耦。在方法上,FreeAct识别token特定的动态(例如,视觉与文本,或masked tokens),并为激活侧分配不同的变换矩阵,同时保持权重侧统一的静态变换。在dLLM和MLLM上的大量实验表明,FreeAct显著优于基线,性能提升高达5.3%,并进行了深入分析。我们的代码将公开发布。
🔬 方法详解
问题定义:现有基于变换的量化方法,如使用正交矩阵投影特征空间,通常采用静态的一对一变换。这种方法忽略了在扩散LLM和多模态LLM中,不同类型的token(例如,视觉token和文本token)具有不同的激活分布,导致量化性能受限。现有方法无法有效处理这种动态的激活模式。
核心思路:FreeAct的核心思路是放宽静态的一对一变换约束,允许激活变换与权重解耦。通过利用激活的秩亏性质,FreeAct找到了一个超越简单逆矩阵的解空间,从而可以为不同的token类型分配不同的变换矩阵,以适应其独特的激活分布。这样可以在保持权重变换统一的同时,更灵活地处理激活的动态变化。
技术框架:FreeAct框架主要包含以下几个步骤:1) Token类型识别:识别输入中的不同token类型,例如视觉token、文本token或masked token。2) 激活变换矩阵分配:为每种token类型分配不同的激活变换矩阵。这些矩阵旨在将激活投影到更易于量化的空间。3) 权重变换:对权重应用统一的静态变换,以保持模型的一致性。4) 量化与反量化:使用量化器对变换后的激活和权重进行量化,并在需要时进行反量化。5) 模型推理:使用量化后的模型进行推理。
关键创新:FreeAct最重要的技术创新在于解耦了激活变换与权重变换。传统方法通常采用静态的一对一变换,限制了模型对动态激活模式的适应能力。FreeAct通过利用激活的秩亏性质,找到了一个更大的解空间,允许为不同的token类型分配不同的激活变换矩阵,从而更好地适应其独特的激活分布。这种解耦设计使得模型能够更有效地利用量化后的资源,提高性能。
关键设计:FreeAct的关键设计包括:1) Token类型识别策略:根据具体的应用场景和模型结构,设计合适的token类型识别策略。例如,在多模态LLM中,可以根据输入模态(视觉或文本)来区分token类型。2) 激活变换矩阵的初始化和训练:可以使用随机初始化或预训练的变换矩阵作为初始值,并通过微调来优化这些矩阵。3) 量化器的选择:可以选择不同的量化器,例如均匀量化或非均匀量化,以适应不同的激活分布。4) 损失函数的设计:可以使用重构损失或任务相关的损失函数来指导激活变换矩阵的训练。
🖼️ 关键图片
📊 实验亮点
FreeAct在扩散LLM和多模态LLM上进行了广泛的实验,结果表明其性能显著优于基线方法。例如,在某些任务上,FreeAct实现了高达5.3%的性能提升。这些实验结果验证了FreeAct的有效性,并表明其在处理动态激活模式方面具有显著优势。此外,论文还进行了深入的分析,进一步阐明了FreeAct的优势和局限性。
🎯 应用场景
FreeAct具有广泛的应用前景,尤其是在资源受限的设备上部署大型语言模型。它可以应用于各种需要量化的场景,如移动设备、边缘计算和嵌入式系统。通过降低LLM的内存占用和计算复杂度,FreeAct使得这些模型能够在更广泛的平台上运行,从而加速人工智能技术的普及和应用。未来,FreeAct可以进一步扩展到其他类型的模型和任务中。
📄 摘要(原文)
Quantization is pivotal for mitigating the significant memory and computational overhead of Large Language Models (LLMs). While emerging transformation-based methods have successfully enhanced quantization by projecting feature spaces onto smoother manifolds using orthogonal matrices, they typically enforce a rigid one-to-one transformation constraint. This static approach fails to account for the dynamic patterns inherent in input activations, particularly within diffusion LLMs (dLLMs) and Multimodal LLMs (MLLMs), where varying token types exhibit distinct distributions. To advance this, we propose FreeAct, a novel quantization framework that relaxes the static one-to-one constraint to accommodate dynamic activation disparities. Theoretically, we leverage the rank-deficient nature of activations to derive a solution space that extends beyond simple inverse matrices, enabling the decoupling of activation transformations from weights. Methodologically, FreeAct identifies token-specific dynamics (i.e., vision v.s. text, or masked tokens) and allocates distinct transformation matrices to the activation side, while maintaining a unified, static transformation for the weights. Extensive experiments across dLLMs and MLLMs demonstrate that FreeAct significantly outperforms baselines, up to 5.3% performance improvement, with in-depth analyses. Our code will be publicly released.