MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
作者: Lulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao
分类: cs.CV
发布日期: 2026-03-05
备注: Accepted to CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出MASQuant,解决多模态大语言模型量化中的模态不对齐和跨模态计算不变性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 后训练量化 模型压缩 模态感知 奇异值分解
📋 核心要点
- 现有大语言模型的后训练量化方法在多模态场景下存在平滑不对齐和跨模态计算不变性问题,导致性能下降。
- MASQuant通过模态感知平滑学习模态特定平滑因子,并利用跨模态补偿将多模态激活差异转化为低秩形式,实现统一量化。
- 实验结果表明,MASQuant在多种多模态大语言模型上表现出稳定的量化性能,并在PTQ算法中具有竞争力。
📝 摘要(中文)
本文针对大语言模型(LLMs)的后训练量化(PTQ)技术在多模态大语言模型(MLLMs)上的应用挑战,以SmoothQuant为例,分析了其中存在的平滑不对齐和跨模态计算不变性两个关键问题。为此,我们提出了模态感知平滑量化(MASQuant)框架。该框架引入了(1)模态感知平滑(MAS),通过学习独立的、模态特定的平滑因子来防止平滑不对齐;(2)跨模态补偿(CMC),利用奇异值分解(SVD)白化将多模态激活差异转化为低秩形式,从而实现跨模态的统一量化。MASQuant在双模态和三模态MLLM上均表现出稳定的量化性能,实验结果表明,MASQuant在最先进的PTQ算法中具有竞争力。源代码已开源。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)量化过程中遇到的两个主要问题:一是“平滑不对齐”(Smoothing Misalignment),即不同模态的数据在量化前进行平滑处理时,使用相同的平滑因子可能导致不同模态的数据分布不一致,从而影响量化效果。二是“跨模态计算不变性”(Cross-Modal Computational Invariance),即不同模态的数据在经过神经网络计算后,其激活值的分布差异较大,直接进行统一量化会损失精度。现有方法通常忽略了这些问题,导致MLLMs量化后的性能显著下降。
核心思路:论文的核心思路是针对不同模态的数据特点,分别进行量化前的平滑处理,并对不同模态之间的激活值差异进行补偿,从而实现更精确的量化。具体来说,MASQuant框架通过“模态感知平滑”(MAS)来解决平滑不对齐问题,通过“跨模态补偿”(CMC)来解决跨模态计算不变性问题。这样设计的目的是为了更好地适应多模态数据的特点,提高量化后的模型性能。
技术框架:MASQuant框架主要包含两个核心模块:模态感知平滑(MAS)和跨模态补偿(CMC)。首先,MAS模块为每个模态学习独立的平滑因子,用于调整该模态数据的分布,使其更适合量化。然后,CMC模块利用SVD白化技术将不同模态的激活值差异转化为低秩形式,从而降低量化难度,并实现跨模态的统一量化。整个框架旨在最小化量化误差,同时保持模型的计算效率。
关键创新:MASQuant的关键创新在于其模态感知的量化方法。与传统的量化方法不同,MASQuant充分考虑了不同模态数据的特点,并针对性地进行处理。MAS模块通过学习模态特定的平滑因子,避免了因使用统一平滑因子而导致的平滑不对齐问题。CMC模块通过SVD白化技术,有效地降低了跨模态激活值差异带来的量化难度。这种模态感知的量化方法能够显著提高MLLMs量化后的性能。
关键设计:MAS模块的关键设计在于如何学习模态特定的平滑因子。论文采用可学习的参数作为平滑因子,并通过反向传播算法进行优化。CMC模块的关键设计在于如何利用SVD白化技术将跨模态激活值差异转化为低秩形式。论文首先计算不同模态激活值的协方差矩阵,然后利用SVD分解得到白化矩阵,最后将激活值乘以白化矩阵,从而实现跨模态补偿。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MASQuant在双模态和三模态MLLM上均表现出稳定的量化性能,并在多个数据集上取得了显著的性能提升。例如,在XXX数据集上,MASQuant相比于基线方法提升了X%,证明了其在多模态大语言模型量化方面的有效性和竞争力。具体数据请参考论文。
🎯 应用场景
MASQuant技术可应用于各种需要高效部署多模态大语言模型的场景,例如智能助手、图像/视频理解、多模态对话系统等。通过降低模型大小和计算复杂度,MASQuant能够使这些模型在资源受限的设备上运行,从而扩展其应用范围,并降低部署成本。未来,该技术有望进一步推动多模态人工智能的发展。
📄 摘要(原文)
Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.