InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

作者: Wenjun Wang, Shuo Cai, Congkai Xie, Mingfa Feng, Yiming Zhang, Zhen Li, Kejing Yang, Ming Li, Jiannong Cao, Hongxia Yang

分类: cs.CL, cs.AI

发布日期: 2025-09-26 (更新: 2025-10-17)

备注: This paper has been withdrawn by the authors due to a significant bug discovered in our data processing pipeline. This bug affects the validity of the experimental results, and we can no longer stand by the conclusions presented

💡 一句话要点

InfiR2：面向推理增强语言模型的全面FP8训练方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: FP8训练 大型语言模型 持续预训练 监督微调 混合精度量化 推理增强 计算效率

📋 核心要点

大型语言模型训练成本高昂，阻碍了创新，FP8训练虽有潜力，但缺乏完整开源方案。
提出InfiR2，一种端到端FP8训练方案，结合持续预训练和监督微调，采用混合粒度量化。
实验表明，该方案稳定且无损，推理性能与BF16相当，同时训练时间减少22%，内存减少14%。

📝 摘要（中文）

训练大型语言模型（LLM）的巨大计算成本是创新的主要障碍。虽然FP8训练在理论上提供了显著的效率提升，但由于缺乏全面的开源训练方案，其广泛应用受到阻碍。为了弥合这一差距，我们引入了一种端到端的FP8训练方案，该方案无缝集成了持续预训练和监督微调。我们的方法采用了一种细粒度的混合粒度量化策略，以保持数值精度，同时最大限度地提高计算效率。通过包括在1600亿token语料库上持续预训练模型的广泛实验，我们证明了我们的方案不仅非常稳定，而且基本上是无损的，在一系列推理基准测试中实现了与BF16基线相当的性能。至关重要的是，这通过显著的效率改进来实现，包括训练时间减少高达22%，峰值内存使用量减少14%，吞吐量提高19%。我们的结果表明FP8是BF16的一种实用且稳健的替代方案，我们将发布随附的代码以进一步普及大规模模型训练。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）训练过程中计算成本过高的问题。现有方法，如BF16训练，虽然被广泛使用，但在计算效率方面存在瓶颈。FP8训练理论上可以显著提高效率，但缺乏一个全面、易于使用的训练方案，阻碍了其广泛应用。因此，需要一个稳定、高效且性能良好的FP8训练方案，以降低LLM的训练成本，加速相关研究和应用。

核心思路：论文的核心思路是设计一个端到端的FP8训练方案，该方案能够无缝集成持续预训练和监督微调，并采用细粒度的混合粒度量化策略。通过这种方式，既能充分利用FP8的计算效率优势，又能最大限度地保持数值精度，避免因量化带来的性能损失。此外，该方案力求简单易用，方便研究人员和工程师快速上手。

技术框架：InfiR2的整体框架包含两个主要阶段：持续预训练和监督微调。在持续预训练阶段，模型在一个大规模语料库上进行训练，以学习通用的语言表示。在监督微调阶段，模型在特定任务的数据集上进行微调，以适应特定任务的需求。这两个阶段都采用FP8格式进行训练，并使用混合粒度量化策略来优化计算效率和数值精度。

关键创新：该论文的关键创新在于提出了一个完整的、可直接使用的FP8训练方案，并验证了其在大型语言模型上的有效性。具体来说，混合粒度量化策略是其重要的创新点，它允许根据不同层或参数的重要性，采用不同的量化精度，从而在计算效率和数值精度之间取得平衡。此外，该方案的端到端设计也使其易于集成到现有的训练流程中。

关键设计：混合粒度量化策略是关键设计之一，具体实现细节未知，但推测可能包括：对激活值和权重采用不同的量化方案；对不同层采用不同的量化位宽；动态调整量化参数等。此外，损失函数的选择和优化器的配置也是重要的技术细节，但论文摘要中未提及具体细节，属于未知信息。

📊 实验亮点

实验结果表明，InfiR2在推理基准测试中实现了与BF16基线相当的性能，同时训练时间减少高达22%，峰值内存使用量减少14%，吞吐量提高19%。这些结果表明，FP8训练是一种可行的替代方案，可以在不损失性能的前提下显著提高训练效率。

🎯 应用场景

该研究成果可广泛应用于各种需要训练大型语言模型的场景，例如自然语言处理、机器翻译、文本生成、对话系统等。通过降低训练成本，该方案有望加速LLM在各个领域的应用，并促进相关技术的创新和发展。此外，该方案的开源发布将进一步推动LLM的普及和 democratize 大规模模型训练。

📄 摘要（原文）

The immense computational cost of training Large Language Models (LLMs) presents a major barrier to innovation. While FP8 training offers a promising solution with significant theoretical efficiency gains, its widespread adoption has been hindered by the lack of a comprehensive, open-source training recipe. To bridge this gap, we introduce an end-to-end FP8 training recipe that seamlessly integrates continual pre-training and supervised fine-tuning. Our methodology employs a fine-grained, hybrid-granularity quantization strategy to maintain numerical fidelity while maximizing computational efficiency. Through extensive experiments, including the continue pre-training of models on a 160B-token corpus, we demonstrate that our recipe is not only remarkably stable but also essentially lossless, achieving performance on par with the BF16 baseline across a suite of reasoning benchmarks. Crucially, this is achieved with substantial efficiency improvements, including up to a 22% reduction in training time, a 14% decrease in peak memory usage, and a 19% increase in throughput. Our results establish FP8 as a practical and robust alternative to BF16, and we will release the accompanying code to further democratize large-scale model training.

InfiR2: A Comprehensive FP8 Training Recipe for Reasoning-Enhanced Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册