SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

📄 arXiv: 2603.04716v1 📥 PDF

作者: Luchang Li, Dongfang Li, Bozhao Gong, Yu Zhang

分类: cs.DC, cs.IT, cs.LG

发布日期: 2026-03-05

备注: 10 pages, 3 figures


💡 一句话要点

提出一种面向SLO的预填充-解码分离LLM推理计算资源分配方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型推理 资源分配 服务水平目标 预填充-解码分离 排队论

📋 核心要点

  1. 现有方法缺乏在总吞吐量、SLO和请求特征约束下,确定最佳预填充-解码硬件资源数量的有效方法。
  2. 该论文提出了一种混合方法,结合理论建模和经验基准测试,以优化预填充-解码资源分配。
  3. 实验结果表明,该方法能够准确预测真实LLM推理场景中的最佳预填充-解码资源分配方案。

📝 摘要(中文)

预填充-解码(P/D)分离已成为大语言模型(LLM)推理中广泛采用的优化策略。然而,目前还没有完善的方法来确定最佳的P/D硬件资源数量,同时满足总吞吐量、服务水平目标(SLO)以及请求特征(特别是输入和输出长度)的约束。为了解决这个问题,我们提出了一种结合理论建模和经验基准测试的混合方法。首先,我们提出了一个用于计算P/D资源数量的理论模型,该模型基于总吞吐量需求、请求输入和输出长度以及预填充和解码吞吐量。然后,为了获得SLO约束下的实际预填充和解码吞吐量,我们使用M/M/1排队理论对预填充过程进行建模,从基准测试的最大预填充吞吐量和首个token生成时间(TTFT)推导出实现的预填充吞吐量。对于解码阶段,我们确定满足每个输出token时间(TPOT)要求的解码批大小,并通过经验测量获得相应的解码吞吐量。我们的实验结果表明,所提出的方法可以准确预测真实LLM推理场景中的最佳P/D资源分配。

🔬 方法详解

问题定义:论文旨在解决在满足服务水平目标(SLO)和吞吐量需求的前提下,如何为预填充-解码(P/D)分离的大语言模型(LLM)推理过程,进行最优的计算资源分配问题。现有方法缺乏考虑SLO约束和请求特征(如输入/输出长度)的资源分配策略,导致资源利用率低下或无法满足服务质量要求。

核心思路:核心思路是将理论建模与经验基准测试相结合。首先,建立理论模型来计算P/D资源数量,该模型基于总吞吐量需求、请求输入/输出长度以及预填充/解码吞吐量。然后,通过经验基准测试获取实际的预填充和解码吞吐量,并将其与SLO约束相结合,从而优化资源分配。这种混合方法能够更准确地反映真实场景下的性能表现。

技术框架:整体框架包含以下几个主要阶段:1) 理论建模阶段:基于吞吐量需求和请求特征,建立P/D资源数量的理论模型。2) 预填充阶段建模:使用M/M/1排队理论对预填充过程进行建模,并结合基准测试数据,推导出实际的预填充吞吐量。3) 解码阶段建模:确定满足TPOT要求的解码批大小,并通过经验测量获得相应的解码吞吐量。4) 资源分配优化:根据上述模型和测量结果,优化P/D资源的分配,以满足SLO和吞吐量要求。

关键创新:关键创新在于将排队论应用于预填充阶段的建模,并结合经验基准测试来校准理论模型。此外,该方法还考虑了请求的输入/输出长度对资源分配的影响,从而提高了资源分配的准确性和效率。与传统方法相比,该方法能够更好地满足SLO约束,并提高资源利用率。

关键设计:在预填充阶段,使用M/M/1排队模型来估计TTFT,其中到达率由请求的输入长度决定,服务时间由预填充吞吐量决定。解码阶段,通过实验确定不同批大小下的TPOT,并选择满足SLO要求的最大批大小。资源分配的目标是最小化资源使用量,同时满足总吞吐量和SLO约束。

📊 实验亮点

实验结果表明,该方法能够准确预测真实LLM推理场景中的最佳P/D资源分配。通过结合理论建模和经验基准测试,该方法能够有效地满足SLO约束,并提高资源利用率。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于云服务提供商、AI推理平台等,用于优化大语言模型推理服务的资源分配,降低运营成本,提高服务质量。通过根据实际负载和SLO动态调整资源,可以更好地满足用户的需求,并提升用户体验。该方法还可以扩展到其他类型的AI推理服务,具有广泛的应用前景。

📄 摘要(原文)

Prefill-Decode (P/D) disaggregation has emerged as a widely adopted optimization strategy for Large Language Model (LLM) inference. However, there currently exists no well-established methodology for determining the optimal number of P/D hardware resources, subject to constraints on total throughput, service level objectives (SLOs), and request characteristics - specifically input and output lengths. To address this gap, we propose a hybrid approach that combines theoretical modeling with empirical benchmarking. First, we present a theoretical model for calculating P/D resource counts, which is based on total throughput requirements, request input and output lengths, as well as prefill and decode throughput. Then, to obtain the actual prefill and decode throughput under SLO constraints, we model the prefill process using M/M/1 queuing theory, deriving the achieved prefill throughput from the benchmarked maximum prefill throughput and Time-To-First-Token (TTFT). For the decode phase, we determine the decode batch sizes that meet Time-Per-Output-Token (TPOT) requirements and obtain the corresponding decode throughput through empirical measurements. Our experimental results demonstrate that the proposed method can accurately predict optimal P/D resource allocation in real-world LLM inference scenarios.