Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks
作者: Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir
分类: cs.DC, cs.LG, cs.PF
发布日期: 2026-03-05
备注: 17 pages, 8 figures, 3 tables
💡 一句话要点
针对稠密LLM部署,研究并行化策略在延迟与吞吐量间的权衡与瓶颈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 稠密模型 并行化策略 张量并行 流水线并行 延迟优化 吞吐量优化 性能瓶颈
📋 核心要点
- 现有稠密LLM部署面临延迟与吞吐量难以兼顾的挑战,尤其是在模型参数超出设备内存时。
- 论文核心在于分析不同并行化策略(TP和PP)对延迟和吞吐量的影响,并探索混合使用策略。
- 实验表明,TP更适合优化延迟,PP更适合优化吞吐量,混合使用可灵活控制延迟-吞吐量权衡。
📝 摘要(中文)
生成式AI领域的突破推动了大量基于大型语言模型(LLM)的应用,其工作负载主要由Transformer架构的推理序列组成。在快速扩展的生态系统中,稠密LLM(为每个token生成激活所有模型参数)构成了高级专家变体的基础。稠密模型因其强大的泛化能力、可扩展性、易于微调以及在各种任务中的多功能性而继续占据主导地位。LLM推理系统的性能主要由延迟、响应时间和吞吐量(即单位时间内生成的token数)来表征。延迟和吞吐量本质上是耦合的:优化一个通常以牺牲另一个为代价。此外,当稠密模型参数超过设备内存容量时,批处理策略和并行化配置至关重要,它们会显著影响延迟和整体系统吞吐量。本文(i)研究了两个具有代表性的稠密LLM(Llama-3.1-70B和Llama-3.1-405B)的工作负载,特别关注节点内并行化方案,(ii)分析了输入特征、批处理和并行化策略如何影响延迟灵活性以及延迟-吞吐量权衡,以及(iii)确定了关键性能瓶颈,这些瓶颈为满足服务级别协议(SLA)和维持推理质量的设计选择提供了信息。我们的实证评估表明,张量并行(TP)改善了延迟目标,而流水线并行(PP)更适合面向吞吐量的应用。我们强调,通过控制TP和PP的程度来混合使用它们,可以控制延迟-吞吐量之间的相互作用。
🔬 方法详解
问题定义:论文旨在解决在部署大型稠密语言模型时,如何在延迟和吞吐量之间进行权衡的问题。现有的方法通常难以同时优化这两个指标,尤其是在模型参数量巨大,单卡无法容纳时,需要采用并行化策略,而不同的并行化策略对延迟和吞吐量有不同的影响。
核心思路:论文的核心思路是通过分析不同的并行化策略(张量并行TP和流水线并行PP)对延迟和吞吐量的影响,并探索混合使用这些策略的可能性,从而在延迟和吞吐量之间找到一个平衡点。通过控制TP和PP的程度,可以灵活地调整系统的性能,以满足不同的应用需求。
技术框架:论文的技术框架主要包括以下几个部分:1)对Llama-3.1-70B和Llama-3.1-405B两个稠密LLM进行工作负载分析;2)研究输入特征、批处理和并行化策略对延迟和吞吐量的影响;3)识别关键的性能瓶颈,并提出相应的优化建议。整体流程是从分析问题出发,到提出解决方案,再到实验验证,最终得出结论。
关键创新:论文的关键创新在于对TP和PP的混合使用策略的探索。以往的研究通常只关注单一的并行化策略,而忽略了不同策略之间的互补性。论文通过实验证明,TP更适合优化延迟,PP更适合优化吞吐量,而混合使用这两种策略可以更好地控制延迟-吞吐量之间的权衡。
关键设计:论文的关键设计在于如何控制TP和PP的程度。具体来说,可以通过调整TP和PP的并行度,来控制模型的计算和通信开销,从而影响延迟和吞吐量。此外,论文还考虑了输入特征和批处理大小对性能的影响,并提出了一些优化建议,例如,可以根据输入特征的长度来动态调整批处理大小,以提高系统的吞吐量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,张量并行(TP)更适合优化延迟,而流水线并行(PP)更适合优化吞吐量。通过混合使用TP和PP,并控制它们的并行度,可以灵活地调整系统的性能,以满足不同的应用需求。例如,在对延迟要求较高的场景下,可以增加TP的并行度,以降低延迟;而在对吞吐量要求较高的场景下,可以增加PP的并行度,以提高吞吐量。
🎯 应用场景
该研究成果可应用于各种需要部署大型语言模型的场景,例如在线问答系统、智能客服、文本生成等。通过选择合适的并行化策略,可以在满足延迟要求的同时,最大化系统的吞吐量,从而提高用户体验和降低运营成本。该研究对LLM的实际部署具有重要的指导意义。
📄 摘要(原文)
Breakthroughs in the generative AI domain have fueled an explosion of large language model (LLM)-powered applications, whose workloads fundamentally consist of sequences of inferences through transformer architectures. Within this rapidly expanding ecosystem, dense LLMs--those that activate all model parameters for each token generation--form the foundation for advanced expert-based variants. Dense models continue to dominate because of their strong generalization ability, scalability, ease of fine-tuning, and versatility across diverse tasks. In LLM inference systems, performance is mainly characterized by latency, response time, and throughput (i.e., tokens generated per unit of time). Latency and throughput are inherently coupled: optimizing for one often comes at the expense of the other. Moreover, batching strategies and parallelism configurations, which are essential when dense model parameters exceed device memory capacity, can significantly affect both latency and overall system throughput. This paper (i) investigates the workloads of two representative dense LLMs--Llama-3.1-70B and Llama-3.1-405B, focusing in particular on intra-node parallelization schemes, (ii) analyzes how input characteristics, batching, and parallelism strategies influence latency flexibility and the latency-throughput tradeoff, and (iii) identifies key performance bottlenecks that inform design choices for meeting service-level agreements (SLAs) and sustaining inference quality. Our empirical evaluations reveal that Tensor Parallelism (TP) improves the latency objectives while Pipeline Parallelism (PP) is better-suited for throughput-oriented applications. We highlight that their hybrid usage by controlling the TP and PP degrees provides control over the latency-throughput interplay.