InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

📄 arXiv: 2509.22536v4 📥 PDF

作者: Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Hongxia Yang

分类: cs.CL, cs.AI

发布日期: 2025-09-26 (更新: 2025-10-17)

备注: This paper has been withdrawn by the authors due to a significant bug discovered in our data processing pipeline. This bug affects the validity of the experimental results, and we can no longer stand by the conclusions presented


💡 一句话要点

InfiR2:面向推理增强语言模型的全面FP8训练方案

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: FP8训练 大型语言模型 持续预训练 监督微调 混合精度量化 推理增强 计算效率

📋 核心要点

  1. 大型语言模型训练成本高昂,阻碍了创新,FP8训练虽有潜力,但缺乏完整开源方案。
  2. 提出InfiR2,一种端到端FP8训练方案,结合持续预训练和监督微调,采用混合粒度量化。
  3. 实验表明,该方案稳定且无损,推理性能与BF16相当,同时训练时间减少22%,内存减少14%。

📝 摘要(中文)

训练大型语言模型(LLM)的巨大计算成本是创新的主要障碍。虽然FP8训练在理论上提供了显著的效率提升,但由于缺乏全面的开源训练方案,其广泛应用受到阻碍。为了弥合这一差距,我们引入了一种端到端的FP8训练方案,该方案无缝集成了持续预训练和监督微调。我们的方法采用了一种细粒度的混合粒度量化策略,以保持数值精度,同时最大限度地提高计算效率。通过包括在1600亿token语料库上持续预训练模型的广泛实验,我们证明了我们的方案不仅非常稳定,而且基本上是无损的,在一系列推理基准测试中实现了与BF16基线相当的性能。至关重要的是,这通过显著的效率改进来实现,包括训练时间减少高达22%,峰值内存使用量减少14%,吞吐量提高19%。我们的结果表明FP8是BF16的一种实用且稳健的替代方案,我们将发布随附的代码以进一步普及大规模模型训练。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)训练过程中计算成本过高的问题。现有方法,如BF16训练,虽然被广泛使用,但在计算效率方面存在瓶颈。FP8训练理论上可以显著提高效率,但缺乏一个全面、易于使用的训练方案,阻碍了其广泛应用。因此,需要一个稳定、高效且性能良好的FP8训练方案,以降低LLM的训练成本,加速相关研究和应用。

核心思路:论文的核心思路是设计一个端到端的FP8训练方案,该方案能够无缝集成持续预训练和监督微调,并采用细粒度的混合粒度量化策略。通过这种方式,既能充分利用FP8的计算效率优势,又能最大限度地保持数值精度,避免因量化带来的性能损失。此外,该方案力求简单易用,方便研究人员和工程师快速上手。

技术框架:InfiR2的整体框架包含两个主要阶段:持续预训练和监督微调。在持续预训练阶段,模型在一个大规模语料库上进行训练,以学习通用的语言表示。在监督微调阶段,模型在特定任务的数据集上进行微调,以适应特定任务的需求。这两个阶段都采用FP8格式进行训练,并使用混合粒度量化策略来优化计算效率和数值精度。

关键创新:该论文的关键创新在于提出了一个完整的、可直接使用的FP8训练方案,并验证了其在大型语言模型上的有效性。具体来说,混合粒度量化策略是其重要的创新点,它允许根据不同层或参数的重要性,采用不同的量化精度,从而在计算效率和数值精度之间取得平衡。此外,该方案的端到端设计也使其易于集成到现有的训练流程中。

关键设计:混合粒度量化策略是关键设计之一,具体实现细节未知,但推测可能包括:对激活值和权重采用不同的量化方案;对不同层采用不同的量化位宽;动态调整量化参数等。此外,损失函数的选择和优化器的配置也是重要的技术细节,但论文摘要中未提及具体细节,属于未知信息。

📊 实验亮点

实验结果表明,InfiR2在推理基准测试中实现了与BF16基线相当的性能,同时训练时间减少高达22%,峰值内存使用量减少14%,吞吐量提高19%。这些结果表明,FP8训练是一种可行的替代方案,可以在不损失性能的前提下显著提高训练效率。

🎯 应用场景

该研究成果可广泛应用于各种需要训练大型语言模型的场景,例如自然语言处理、机器翻译、文本生成、对话系统等。通过降低训练成本,该方案有望加速LLM在各个领域的应用,并促进相关技术的创新和发展。此外,该方案的开源发布将进一步推动LLM的普及和 democratize 大规模模型训练。

📄 摘要(原文)

The immense computational cost of training Large Language Models (LLMs) presents a major barrier to innovation. While FP8 training offers a promising solution with significant theoretical efficiency gains, its widespread adoption has been hindered by the lack of a comprehensive, open-source training recipe. To bridge this gap, we introduce an end-to-end FP8 training recipe that seamlessly integrates continual pre-training and supervised fine-tuning. Our methodology employs a fine-grained, hybrid-granularity quantization strategy to maintain numerical fidelity while maximizing computational efficiency. Through extensive experiments, including the continue pre-training of models on a 160B-token corpus, we demonstrate that our recipe is not only remarkably stable but also essentially lossless, achieving performance on par with the BF16 baseline across a suite of reasoning benchmarks. Crucially, this is achieved with substantial efficiency improvements, including up to a 22% reduction in training time, a 14% decrease in peak memory usage, and a 19% increase in throughput. Our results establish FP8 as a practical and robust alternative to BF16, and we will release the accompanying code to further democratize large-scale model training.