Equinox: Holistic Fair Scheduling in Serving Large Language Models

作者: Zhixiang Wei, James Yen, Jingyi Chen, Ziyang Zhang, Zhibai Huang, Chen Chen, Xingzi Yu, Yicheng Gu, Chenggang Wu, Yun Wang, Mingyuan Xia, Jie Wu, Hao Wang, Zhengwei Qi

分类: cs.DC, cs.AI

发布日期: 2025-08-19

💡 一句话要点

提出Equinox以解决大语言模型服务中的公平调度问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 公平调度 资源利用 混合预测专家 自适应批处理 GPU利用率 性能优化

📋 核心要点

当前大语言模型服务面临调度悖论，难以同时满足用户和运营者的公平性需求。
提出双计数器框架和混合预测专家（MoPE）方法，能够预测关键性能指标以实现公平调度。
实验结果显示，Equinox在吞吐量、延迟和公平性方面均显著优于现有方法，且GPU利用率保持高效。

📝 摘要（中文）

本文针对当前大语言模型（LLM）服务的局限性，提出了一种双计数器框架，分别从用户和运营者的角度进行分析。用户公平计数器通过加权令牌和延迟来衡量服务质量，而资源公平计数器则通过吞吐量和GPU利用率来评估运营效率。由于这些指标仅在执行后可用，导致调度悖论，本文引入了一种确定性的混合预测专家（MoPE）框架，以预测用户感知的延迟、输出令牌、吞吐量和GPU利用率。这些预测使得能够计算统一的整体公平性评分，从而通过可调参数实现主动的公平感知调度。我们在Equinox中实现了这一框架，并进行了自适应批处理和无停顿调度等优化。对生产轨迹（ShareGPT、LMSYS）和合成工作负载的评估表明，Equinox在吞吐量上提高了1.3倍，首次令牌延迟降低了60%，公平性提高了13%，同时保持94%的GPU利用率，证明了在异构平台上公平性在有限差异下的有效性。

🔬 方法详解

问题定义：本文旨在解决当前大语言模型服务中的公平调度问题，现有方法在用户体验和资源利用之间存在矛盾，导致调度效率低下。

核心思路：通过引入双计数器框架，分别从用户和运营者的角度衡量公平性，并利用混合预测专家（MoPE）框架预测关键性能指标，以实现主动调度。

技术框架：整体架构包括用户公平计数器和资源公平计数器，结合MoPE框架进行性能预测，最终计算统一的整体公平性评分，支持调度决策。

关键创新：最重要的创新在于引入了双计数器框架和MoPE预测机制，使得调度过程能够在执行前进行公平性评估，避免了传统方法的调度悖论。

关键设计：在设计中，设置了可调参数以平衡用户和资源公平性，采用了自适应批处理和无停顿调度策略，确保系统在高负载下仍能保持高效运行。

📊 实验亮点

实验结果表明，Equinox在吞吐量上提高了1.3倍，首次令牌延迟降低了60%，公平性提高了13%，同时保持94%的GPU利用率，显著优于基线方法VTC，证明了其在异构平台上的有效性。

🎯 应用场景

该研究的潜在应用领域包括大语言模型的在线服务、云计算平台的资源调度以及多用户环境下的公平性保障。通过实现公平调度，能够提升用户体验，优化资源利用，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

We address the limitations of current LLM serving with a dual-counter framework separating user and operator perspectives. The User Fairness Counter measures quality of service via weighted tokens and latency; the Resource Fairness Counter measures operational efficiency through throughput and GPU utilization. Since these metrics are only available post-execution, creating a scheduling paradox, we introduce a deterministic Mixture of Prediction Experts (MoPE) framework to predict user-perceived latency, output tokens, throughput, and GPU utilization. These predictions enable calculation of a unified Holistic Fairness score that balances both counters through tunable parameters for proactive fairness-aware scheduling. We implement this in Equinox, an open-source system with other optimizations like adaptive batching, and stall-free scheduling. Evaluations on production traces (ShareGPT, LMSYS) and synthetic workloads demonstrate Equinox achieves up to $1.3\times$ higher throughput, 60\% lower time-to-first-token latency, and 13\% higher fairness versus VTC while maintaining 94\% GPU utilization, proving fairness under bounded discrepancy across heterogeneous platforms.

Equinox: Holistic Fair Scheduling in Serving Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册