Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM

📄 arXiv: 2509.22832v1 📥 PDF

作者: Biyao Zhang, Mingkai Zheng, Debargha Ganguly, Xuecen Zhang, Vikash Singh, Vipin Chaudhary, Zhao Zhang

分类: cs.DC, cs.AI, cs.LG

发布日期: 2025-09-26


💡 一句话要点

提出一种高效细粒度的GPU性能建模方法,用于预测LLM分布式训练性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 分布式训练 性能建模 GPU性能预测 硬件感知 算子级分解

📋 核心要点

  1. 现有方法在预测LLM分布式训练时间时,面临着采样成本高昂和难以处理实际网络硬件复杂性的挑战。
  2. 该论文提出一种基于算子级分解和轻量级采样的硬件感知预测模型,用于准确预测LLM的训练性能。
  3. 实验表明,该方法在Perlmutter和Vista系统上,对高达200亿参数的模型,预测误差分别低至4.98%和9.38%。

📝 摘要(中文)

训练大型语言模型(LLM)是高性能计算中最消耗计算资源的任务之一。由于Transformer组件、并行策略(数据、模型、流水线、张量)和多层通信之间复杂的交互,预测跨数百个GPU分布的数十亿参数模型的端到端训练时间仍然具有挑战性。学习模型需要昂贵的采样,而分析模型通常难以应对实际的网络和硬件复杂性。我们通过将LLM分解为核心计算原语并对其进行建模来解决这个问题:(1)用于细粒度分析的算子级分解;(2)基于轻量级采样的硬件感知预测模型,用于关键操作;(3)一个端到端预测系统,将这些组件集成到复杂的并行化策略中。至关重要的是,我们的方法已经在两个大型HPC系统上得到了验证。我们的框架在Perlmutter(A100)上实现了4.98%的低平均预测误差,在Vista(GH200)上实现了9.38%的低平均预测误差,适用于高达200亿参数的模型,跨越128个GPU。重要的是,它完全在CPU上运行,无需昂贵的集群实验,即可快速迭代硬件配置和训练策略。

🔬 方法详解

问题定义:论文旨在解决在分布式环境下训练大型语言模型(LLM)时,准确预测训练时间的问题。现有的方法,如基于学习的模型,需要大量的采样数据,成本高昂;而分析模型则难以捕捉实际网络和硬件的复杂性,导致预测精度不足。因此,需要一种高效且准确的性能预测方法,以便在实际训练前评估不同硬件配置和并行策略的性能。

核心思路:论文的核心思路是将LLM的训练过程分解为一系列核心计算原语(算子),然后针对这些算子构建硬件感知的性能预测模型。通过对少量样本进行采样,学习算子的性能特征,并将其集成到一个端到端的预测系统中。这种方法避免了对整个训练过程进行昂贵的采样,同时能够捕捉硬件的特性,从而提高预测的准确性。

技术框架:该论文提出的性能预测框架主要包含以下几个模块: 1. 算子级分解:将LLM的训练过程分解为一系列基本的计算算子,例如矩阵乘法、激活函数等。 2. 轻量级采样:针对每个算子,在不同的硬件配置下进行少量采样,收集性能数据。 3. 硬件感知预测模型:基于采样数据,构建硬件感知的预测模型,用于预测每个算子的执行时间。 4. 端到端预测系统:将各个算子的预测结果集成起来,预测整个LLM训练过程的端到端时间。

关键创新:该论文的关键创新在于: 1. 细粒度的算子级分解:通过将LLM分解为更小的计算单元,可以更精确地建模硬件对不同算子的影响。 2. 轻量级采样方法:通过少量采样即可构建准确的预测模型,大大降低了采样成本。 3. 硬件感知的预测模型:考虑了硬件的特性,提高了预测的准确性。

关键设计:论文中关键的设计包括: 1. 算子的选择:选择哪些算子进行建模,需要权衡建模的复杂度和预测的准确性。 2. 采样策略:如何选择采样点,以保证采样数据的代表性。 3. 预测模型的选择:选择合适的机器学习模型,用于预测算子的执行时间。论文中使用了硬件感知的模型,具体模型细节未知。

📊 实验亮点

该论文提出的框架在Perlmutter(A100)和Vista(GH200)两个大规模HPC系统上进行了验证。实验结果表明,对于高达200亿参数的模型,该框架在Perlmutter上的平均预测误差为4.98%,在Vista上的平均预测误差为9.38%。重要的是,该框架完全在CPU上运行,无需昂贵的GPU资源。

🎯 应用场景

该研究成果可应用于大规模分布式深度学习系统的性能优化和资源调度。通过准确预测不同硬件配置和训练策略下的性能,可以帮助研究人员和工程师选择最优的配置,提高训练效率,降低训练成本。此外,该方法还可以用于指导硬件设计,优化硬件架构以更好地支持LLM的训练。

📄 摘要(原文)

Training Large Language Models(LLMs) is one of the most compute-intensive tasks in high-performance computing. Predicting end-to-end training time for multi-billion parameter models distributed across hundreds of GPUs remains challenging due to complex interactions between transformer components, parallelism strategies(data, model, pipeline, tensor), and multi-tier communication. Learned models require costly sampling, while analytical models often struggle with real-world network and hardware complexities. We address this by decomposing LLMs into core computational primitives and modeling them with: (1) operator-level decomposition for fine-grained analysis; (2) lightweight sampling based hardware-aware prediction models for key operations; (3) an end-to-end prediction system integrating these components across complex parallelization strategies. Crucially, our methodology has been validated on two large-scale HPC systems. Our framework achieves low average prediction errors-4.98\% on Perlmutter(A100) and 9.38\% on Vista(GH200)-for models up to 20B parameters across 128 GPUs. Importantly, it runs entirely on CPUs, enabling rapid iteration over hardware configurations and training strategies without costly on-cluster experimentation.