Activation Quantization of Vision Encoders Needs Prefixing Registers

📄 arXiv: 2510.04547v3 📥 PDF

作者: Seunghyeon Kim, Jinho Kim, Taesun Yeom, Wonpyo Park, Kyuyeun Kim, Jaeho Lee

分类: cs.LG, cs.CV

发布日期: 2025-10-06 (更新: 2025-11-28)

备注: 19 pages, 8 figures


💡 一句话要点

提出RegCache,通过前缀寄存器实现视觉编码器激活量化的无训练优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉编码器 量化 激活值 异常值抑制 前缀寄存器

📋 核心要点

  1. 现有视觉编码器量化面临大规模激活异常值的挑战,即使在8位精度下也难以保证性能。
  2. RegCache通过引入前缀token来抑制激活异常值,无需训练,可作为插件集成到现有量化流程中。
  3. 实验表明,RegCache能有效提升量化后视觉编码器的精度,适用于文本监督和自监督模型。

📝 摘要(中文)

基于Transformer的视觉编码器,如CLIP,在多模态智能中至关重要,驱动着从自主网络代理到机器人控制等应用。由于这些应用通常需要对海量视觉数据进行实时处理,因此降低视觉编码器的推理成本至关重要。量化提供了一条可行的途径,但由于大规模激活(即异常值),即使在8位精度下仍然具有挑战性。本文提出RegCache,一种无需训练的算法,用于缓解大规模预训练视觉编码器中的异常值,并作为一个插件模块应用于其他量化方法之上。RegCache将易于出现异常值但语义上无意义的前缀token引入目标视觉编码器,从而防止其他token出现异常值。值得注意的是,我们观察到视觉编码器中的异常值与语言模型中的异常值表现不同,这促使了两项技术创新:中间层前缀和token删除。实验表明,我们的方法始终提高文本监督和自监督视觉编码器中量化模型的准确性。

🔬 方法详解

问题定义:论文旨在解决视觉编码器量化过程中,由于激活值中存在大量异常值(outliers)而导致的精度下降问题。现有的量化方法在处理大规模视觉编码器时,难以有效抑制这些异常值,导致量化后的模型性能显著降低。尤其是在低比特量化的情况下,这个问题更加突出。

核心思路:论文的核心思路是引入“前缀寄存器”(Prefixing Registers),即在视觉编码器的输入token序列中添加一些特殊的、语义上无意义的token。这些token的设计目的是吸引并隔离激活值中的异常值,从而防止其他具有实际语义信息的token受到异常值的影响。通过这种方式,可以有效地抑制量化过程中的精度损失。

技术框架:RegCache作为一个插件模块,可以添加到现有的视觉编码器量化流程中。其主要步骤包括:1)在输入token序列中添加前缀token;2)在视觉编码器的中间层(而非仅在输入层)添加前缀token,以更好地捕获和隔离异常值;3)对添加的前缀token进行选择性删除,以进一步优化性能。整个框架无需额外的训练,可以直接应用于预训练的视觉编码器。

关键创新:论文的关键创新在于:1)提出了前缀寄存器的概念,通过引入语义上无意义的token来抑制激活异常值;2)观察到视觉编码器中的异常值行为与语言模型不同,因此提出了中间层前缀和token删除策略,更有效地处理视觉编码器的量化问题。

关键设计:在具体实现上,前缀token的数量是一个重要的参数,需要根据具体的模型和数据集进行调整。论文中还提到,在中间层添加前缀token可以更好地捕获和隔离异常值,这与在输入层添加前缀token的效果不同。此外,token删除策略也是一个关键的设计,可以进一步优化模型的性能。具体的损失函数和网络结构没有改变,RegCache作为一个插件,主要作用于输入token序列的处理。

📊 实验亮点

实验结果表明,RegCache能够显著提高量化后视觉编码器的精度。例如,在CLIP模型上,使用RegCache后,量化模型的精度提升了多个百分点。此外,RegCache在文本监督和自监督视觉编码器上均表现出良好的性能,证明了其通用性和有效性。该方法无需训练,易于集成到现有的量化流程中。

🎯 应用场景

RegCache技术可广泛应用于各种依赖视觉编码器的多模态智能应用中,例如自动驾驶、机器人控制、图像搜索、视频分析等。通过降低视觉编码器的推理成本,可以实现更高效、更实时的视觉信息处理,从而提升相关应用的性能和用户体验。该技术还有助于在资源受限的设备上部署复杂的视觉模型。

📄 摘要(原文)

Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm that mitigates outliers in large-scale pretrained vision encoders and serves as a plug-in module that can be applied on top of other quantization methods. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.