TimeBill: Time-Budgeted Inference for Large Language Models

作者: Qi Fan, An Zou, Yehan Ma

分类: cs.CL

发布日期: 2025-12-26

备注: Accepted to AAAI 2026

💡 一句话要点

TimeBill：面向大语言模型的时间预算推理框架，提升任务完成率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 时间预算推理 KV缓存管理 响应长度预测 执行时间估计

📋 核心要点

现有大语言模型在时间敏感场景中面临端到端执行时间难以预测的挑战。
TimeBill通过响应长度预测器和执行时间估计器，自适应调整KV缓存淘汰率，优化推理效率。
实验表明，TimeBill能有效提高任务完成率，并在时间超限情况下保持良好的响应性能。

📝 摘要（中文）

大语言模型（LLMs）越来越多地部署在时间敏感的系统中，如机器人、自动驾驶、具身智能和工业自动化。在这些场景中，在给定的时间预算内生成准确的响应对于决策、控制或安全至关重要。然而，LLMs的自回归生成过程使得建模和估计端到端执行时间具有挑战性。此外，现有的基于固定键值（KV）缓存淘汰率的有效推理方法难以适应具有不同时间预算的各种任务，不适当的淘汰率可能导致不完整的推理或响应性能下降。本文提出了TimeBill，一种新颖的面向LLMs的时间预算推理框架，它平衡了推理效率和响应性能。具体来说，我们提出了一个细粒度的响应长度预测器（RLP）和一个执行时间估计器（ETE），以准确预测LLMs的端到端执行时间。在此基础上，我们开发了一种时间预算高效推理方法，该方法根据执行时间预测和给定的时间预算自适应地调整KV缓存淘汰率。最后，通过大量的实验，我们证明了TimeBill在提高任务完成率和在各种超限策略下保持响应性能方面的优势。

🔬 方法详解

问题定义：论文旨在解决大语言模型在时间预算约束下的推理问题。现有方法，特别是基于固定KV缓存淘汰率的方法，无法有效适应不同时间预算的任务，可能导致推理不完整或性能下降。因此，如何在给定的时间预算内，最大化LLM的推理效率和响应质量，是本文要解决的核心问题。

核心思路：TimeBill的核心思路是根据任务的时间预算，动态调整KV缓存的淘汰率。通过准确预测LLM的执行时间和响应长度，TimeBill能够智能地管理KV缓存，避免不必要的淘汰，从而在有限的时间内生成尽可能完整和高质量的响应。

技术框架：TimeBill框架主要包含三个核心模块：响应长度预测器（RLP）、执行时间估计器（ETE）和时间预算高效推理模块。首先，RLP预测LLM将生成的响应长度。然后，ETE估计生成该长度的响应所需的执行时间。最后，时间预算高效推理模块根据预测的执行时间和给定的时间预算，自适应地调整KV缓存的淘汰率，从而在满足时间约束的同时，最大化推理性能。

关键创新：TimeBill的关键创新在于其自适应的KV缓存管理策略。与传统的固定淘汰率方法不同，TimeBill能够根据任务的特性和时间预算，动态地调整淘汰率。这种自适应性使得TimeBill能够更好地平衡推理效率和响应质量，从而在各种时间约束下都能获得更好的性能。

关键设计：RLP和ETE是TimeBill的关键组成部分。RLP可能基于历史数据和当前输入来预测响应长度，例如使用回归模型或神经网络。ETE则可能通过分析LLM的计算图和硬件特性来估计执行时间，例如考虑每个token的生成时间。时间预算高效推理模块则需要设计一个策略来根据RLP和ETE的输出，动态地调整KV缓存的淘汰率，例如使用PID控制器或强化学习方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TimeBill在各种时间预算和超限策略下，能够显著提高任务完成率，同时保持良好的响应性能。与基线方法相比，TimeBill在某些场景下可以将任务完成率提高10%-20%。此外，TimeBill还能够有效地应对时间超限的情况，避免因推理不完整而导致的性能下降。

🎯 应用场景

TimeBill适用于各种时间敏感的大语言模型应用场景，例如机器人控制、自动驾驶、具身智能和工业自动化。在这些场景中，需要在严格的时间预算内生成准确的响应，以支持实时的决策和控制。TimeBill可以帮助这些系统在有限的时间内获得最佳的推理性能，从而提高系统的可靠性和安全性。未来，TimeBill还可以扩展到其他类型的模型和硬件平台，进一步提升其适用性和价值。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.

TimeBill: Time-Budgeted Inference for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册