Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model
作者: Jakub Prejzner
分类: cs.CL, cs.AI
发布日期: 2026-03-04
备注: 17 pages, 13 tables. All models and Hessians available at https://huggingface.co/Jakubrd4
💡 一句话要点
Bielik-Q2-Sharp:针对波兰语11B语言模型的极端2比特量化方法对比研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化 大型语言模型 波兰语 后训练量化 低比特量化 模型压缩 自然语言处理
📋 核心要点
- 现有大语言模型量化方法在特定语种(如波兰语)上的系统性评估不足,缺乏针对性优化。
- 论文通过对比多种先进量化方法,探索在保持模型性能的同时,实现极端2比特量化的可行性。
- 实验表明,QuIP# E8P12在波兰语基准测试中性能接近全精度模型,且QTIP在比特效率方面表现出色。
📝 摘要(中文)
本文介绍了Bielik-Q2-Sharp,这是首次针对应用于波兰语大型语言模型的极端2比特量化进行的系统性学术评估。我们使用Bielik-11B-v2.3-Instruct(110亿参数,Mistral架构)作为基础模型,比较了六种最先进的后训练量化方法——QuIP#、SpinQuant+GPTQ、ButterflyQuant、QTIP、VPTQ和AQLM——所有方法都在波兰语语料库(CulturaX-PL)上使用共享的Hessian矩阵进行校准。我们最好的变体(QuIP# E8P12)在22个波兰语基准测试中达到了71.92%的准确率,而IQ2_XXS基线的准确率为72.07%——在统计噪声范围内,且尺寸略有增加(3.26 GB vs. ~2.6 GB)。在eq_bench上,我们的方法得分47.14,而基线为43.53(+3.6pp),表明更高阶推理能力的更好保留。QTIP实现了最佳的每比特效率(在~2.4 bpw、3.27 GB时,MC acc_norm为79.4%),以小35%的尺寸匹配了VPTQ的质量。此外,我们还记录了一种MC生成分离现象,其中基于旋转的方法保留了对数似然质量,但在自回归生成方面却彻底失败。整个项目由一位独立研究人员在云GPU(vast.ai)上以285美元的预算完成。所有模型、Hessian矩阵和评估日志均已公开。
🔬 方法详解
问题定义:论文旨在研究如何对大型波兰语语言模型进行有效的2比特量化,以减小模型大小并提高推理速度,同时尽可能保持模型的性能。现有量化方法在通用数据集上表现良好,但在特定语种上可能存在性能下降,且缺乏针对波兰语的系统性评估。
核心思路:论文的核心思路是比较和评估多种先进的后训练量化(Post-Training Quantization, PTQ)方法,并针对波兰语语料库进行校准,以找到最适合该语种的2比特量化方案。通过共享Hessian矩阵,降低了校准过程的计算成本。
技术框架:论文的技术框架主要包括以下几个阶段:1) 选择Bielik-11B-v2.3-Instruct作为基础模型;2) 选择CulturaX-PL作为波兰语校准数据集;3) 实施和比较六种PTQ方法(QuIP#、SpinQuant+GPTQ、ButterflyQuant、QTIP、VPTQ和AQLM);4) 使用22个波兰语基准测试评估量化模型的性能;5) 分析和比较不同量化方法的性能、模型大小和比特效率。
关键创新:论文的关键创新在于:1) 首次针对波兰语大型语言模型进行了系统的2比特量化评估;2) 发现了MC生成分离现象,即基于旋转的量化方法在对数似然质量上表现良好,但在自回归生成方面表现不佳;3) 通过共享Hessian矩阵,降低了量化校准的计算成本。
关键设计:论文的关键设计包括:1) 使用共享Hessian矩阵进行量化校准;2) 针对不同的量化方法,选择合适的参数设置(例如,QuIP# E8P12);3) 使用包含22个任务的波兰语基准测试集进行全面评估;4) 详细分析了不同量化方法在模型大小、性能和比特效率方面的权衡。
📊 实验亮点
QuIP# E8P12在22个波兰语基准测试中达到了71.92%的准确率,与IQ2_XXS基线的72.07%几乎相同,但模型大小仅为3.26 GB。在eq_bench上,QuIP# E8P12的得分比基线高3.6个百分点,表明其在更高阶推理方面具有优势。QTIP实现了最佳的每比特效率,以更小的模型尺寸匹配了VPTQ的性能。
🎯 应用场景
该研究成果可应用于波兰语相关的自然语言处理任务,例如机器翻译、文本摘要、问答系统等。通过减小模型大小,可以更容易地在资源受限的设备上部署这些模型,从而促进波兰语自然语言处理技术的普及和应用。此外,该研究也为其他语种的大型语言模型量化提供了参考。
📄 摘要(原文)
We present Bielik-Q2-Sharp, the first systematic academic evaluation of extreme 2-bit quantization applied to a Polish large language model. Using Bielik-11B-v2.3-Instruct (11B parameters, Mistral architecture) as our base model, we compare six state-of-the-art post-training quantization methods -- QuIP#, SpinQuant+GPTQ, ButterflyQuant, QTIP, VPTQ, and AQLM -- all calibrated on a Polish-language corpus (CulturaX-PL) with shared Hessian matrices. Our best variant (QuIP# E8P12) achieves 71.92% across 22 Polish benchmarks versus 72.07% for the IQ2_XXS baseline -- within statistical noise, at a modest size premium (3.26 GB vs. ~2.6 GB). On eq_bench, our method scores 47.14 versus 43.53 (+3.6pp), suggesting superior preservation of higher-order reasoning. QTIP achieves the best per-bit efficiency (79.4% MC acc_norm at ~2.4 bpw, 3.27 GB), matching VPTQ's quality at 35% smaller size. We additionally document a MC-generation dissociation phenomenon where rotation-based methods preserve log-likelihood quality but fail catastrophically at autoregressive generation. The entire project was conducted by a single independent researcher on cloud GPUs (vast.ai) within a $285 budget. All models, Hessians, and evaluation logs are publicly available.