AdaHOP: Fast and Accurate Low-Precision Training via Outlier-Pattern-Aware Rotation
作者: Seonggon Kim, Alireza Khodamoradi, Kristof Denolf, Eunhyeok Park
分类: cs.LG
发布日期: 2026-04-06
💡 一句话要点
AdaHOP:通过感知异常模式的旋转实现快速准确的低精度训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低精度训练 Hadamard变换 异常值抑制 大型语言模型 量化误差 自适应策略 硬件加速 Triton内核
📋 核心要点
- 现有低精度训练方法采用固定Hadamard变换,忽略了LLM中不同层和计算路径上异常值结构的差异。
- AdaHOP通过分析LLM中权重、激活和梯度的异常模式,自适应地选择最佳Hadamard变换策略。
- 实验表明,AdaHOP在MXFP4精度下实现了BF16训练质量,并显著提升了内存压缩和内核加速。
📝 摘要(中文)
低精度训练(LPT)通常采用Hadamard变换来抑制大型语言模型(LLM)中的异常值并减轻量化误差。然而,先前的方法采用固定的变换,忽略了张量间异常值结构的显著差异。通过对LLM权重、激活和梯度的异常模式的首次系统研究,我们表明这种策略存在根本缺陷:基于Hadamard的抑制效果取决于变换的平滑方向与每个操作数的异常值结构的对齐方式,而这种属性在不同层和计算路径中差异很大。我们将这些模式分为三种类型:行式、列式和无。每种类型都需要定制的变换方向或异常值处理策略,以最大限度地减少量化误差。基于此,我们提出了AdaHOP(具有异常模式感知策略的自适应Hadamard变换),它为每个矩阵乘法分配其最佳策略:内部Hadamard变换(IHT),其中内部维度平滑有效;或者IHT与选择性异常值提取(OE)相结合,将主要异常值路由到高精度路径。结合硬件感知的Triton内核,AdaHOP在MXFP4精度下实现了BF16训练质量,同时与BF16全精度训练相比,提供了高达3.6倍的内存压缩和1.8倍的内核加速。
🔬 方法详解
问题定义:现有低精度训练方法在处理大型语言模型时,通常采用固定的Hadamard变换来抑制异常值和减轻量化误差。然而,这种方法忽略了不同层、不同类型的张量(权重、激活、梯度)中异常值模式的差异性,导致量化误差无法有效降低,影响模型精度。现有方法缺乏对异常值模式的细粒度分析和自适应处理机制。
核心思路:AdaHOP的核心思路是根据不同张量的异常值模式,自适应地选择最佳的Hadamard变换策略。通过对LLM中权重、激活和梯度的异常模式进行系统研究,发现存在行式、列式和无三种主要模式。针对不同的模式,采用不同的Hadamard变换方向或结合选择性异常值提取,以最小化量化误差。这种自适应策略能够更有效地抑制异常值,提高低精度训练的精度。
技术框架:AdaHOP的整体框架包括以下几个主要步骤:1) 异常值模式分析:对LLM中的权重、激活和梯度进行分析,识别其异常值模式(行式、列式或无)。2) 策略选择:根据识别出的异常值模式,为每个矩阵乘法操作选择最佳的策略,包括内部Hadamard变换(IHT)或IHT与选择性异常值提取(OE)的组合。3) 低精度训练:使用选择的策略进行低精度训练,包括量化、Hadamard变换、矩阵乘法等操作。4) 硬件加速:利用硬件感知的Triton内核,优化低精度训练的性能。
关键创新:AdaHOP的关键创新在于其自适应的Hadamard变换策略,能够根据不同张量的异常值模式选择最佳的变换方向或结合异常值提取。与现有方法相比,AdaHOP能够更有效地抑制异常值,提高低精度训练的精度。此外,AdaHOP还结合了硬件感知的Triton内核,进一步提升了训练性能。
关键设计:AdaHOP的关键设计包括:1) 异常值模式识别方法:通过统计分析或其他方法,识别张量的异常值模式。2) 策略选择机制:根据识别出的异常值模式,选择最佳的Hadamard变换策略。例如,对于行式异常值模式,选择在行维度上进行Hadamard变换;对于列式异常值模式,选择在列维度上进行Hadamard变换。3) 选择性异常值提取(OE):将主要的异常值路由到高精度路径,以避免量化误差的影响。4) 硬件感知的Triton内核:针对特定的硬件平台,优化低精度训练的性能。
🖼️ 关键图片
📊 实验亮点
AdaHOP在MXFP4精度下实现了与BF16全精度训练相当的训练质量。与BF16全精度训练相比,AdaHOP实现了高达3.6倍的内存压缩和1.8倍的内核加速。这些结果表明,AdaHOP能够显著提升低精度训练的效率和精度。
🎯 应用场景
AdaHOP可应用于各种需要低精度训练的大型语言模型,例如自然语言处理、机器翻译、文本生成等领域。通过降低内存占用和提高计算效率,AdaHOP能够加速模型训练,降低训练成本,并支持在资源受限的设备上部署大型模型。该研究对于推动人工智能技术的普及和应用具有重要意义。
📄 摘要(原文)
Low-precision training (LPT) commonly employs Hadamard transforms to suppress outliers and mitigate quantization error in large language models (LLMs). However, prior methods apply a fixed transform uniformly, despite substantial variation in outlier structures across tensors. Through the first systematic study of outlier patterns across weights, activations, and gradients of LLMs, we show that this strategy is fundamentally flawed: the effectiveness of Hadamard-based suppression depends on how the transform's smoothing direction aligns with the outlier structure of each operand -- a property that varies substantially across layers and computation paths. We characterize these patterns into three types: Row-wise, Column-wise, and None. Each pair requires a tailored transform direction or outlier handling strategy to minimize quantization error. Based on this insight, we propose AdaHOP (Adaptive Hadamard transform with Outlier-Pattern-aware strategy), which assigns each matrix multiplication its optimal strategy: Inner Hadamard Transform (IHT) where inner-dimension smoothing is effective, or IHT combined with selective Outlier Extraction (OE) -- routing dominant outliers to a high-precision path -- where it is not. Combined with hardware-aware Triton kernels, AdaHOP achieves BF16 training quality at MXFP4 precision while delivering up to 3.6X memory compression and 1.8X kernel acceleration} over BF16 full-precision training.