Latency and Token-Aware Test-Time Compute

📄 arXiv: 2509.09864v1 📥 PDF

作者: Jenny Y. Huang, Mehul Damani, Yousef El-Kurdi, Ramon Astudillo, Wei Sun

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-11


💡 一句话要点

提出一种延迟和Token感知的测试时计算动态分配框架,优化LLM推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理优化 动态计算分配 延迟优化 Token成本 增量解码 Beam Search

📋 核心要点

  1. 现有测试时计算动态分配方法忽略了增量解码方法(如beam search),且主要关注token使用,忽略了延迟。
  2. 该论文将推理时扩展建模为动态计算分配和方法选择问题,同时考虑token成本和实际延迟。
  3. 实验结果表明,该方法在推理基准测试中优于静态策略,实现了更好的准确性-成本权衡。

📝 摘要(中文)

本文提出了一种动态计算分配和方法选择的框架,用于优化大型语言模型(LLM)的推理时扩展。该框架旨在根据每个查询动态地决定应用哪种策略以及分配多少计算资源。与现有工作主要关注并行生成方法(如best-of-N)不同,本文同时考虑了增量解码方法(如beam search),并显式地将token成本和实际延迟纳入考量。延迟对于用户体验至关重要,尤其是在需要模型高效发出多个查询的agentic工作流程中。在推理基准测试上的实验表明,该方法始终优于静态策略,在保持部署可行性的同时,实现了良好的准确性-成本权衡。

🔬 方法详解

问题定义:现有的大型语言模型推理时扩展方法,在动态分配计算资源时,主要关注并行生成方法,例如best-of-N。这种方法忽略了增量解码方法,例如beam search。此外,现有方法主要关注token的使用量,而忽略了实际的推理延迟,这对于用户体验,特别是需要模型进行多次查询的agentic工作流程来说,至关重要。因此,需要一种能够同时考虑token成本和延迟,并能够动态选择推理策略的方法。

核心思路:本文的核心思路是将推理时扩展问题建模为一个动态计算分配和方法选择的问题。系统需要根据每个查询的特点,动态地决定采用哪种推理策略(例如best-of-N或beam search),以及分配多少计算资源。通过这种动态的分配,可以在保证准确性的前提下,最小化token成本和推理延迟。

技术框架:该框架包含以下几个主要模块:1) 查询分析模块:分析输入查询的特点,例如复杂度和所需的推理深度。2) 策略选择模块:根据查询分析的结果,选择合适的推理策略,例如best-of-N或beam search。3) 资源分配模块:根据所选的推理策略,动态地分配计算资源,例如分配多少个候选响应或beam search的宽度。4) 推理执行模块:使用所选的推理策略和分配的计算资源,执行推理过程。5) 结果选择模块:从生成的候选响应中,选择最佳的响应作为最终结果。

关键创新:该论文的关键创新在于:1) 同时考虑了token成本和延迟,并将其纳入动态计算分配的优化目标中。2) 提出了一个通用的框架,可以支持多种推理策略,包括并行生成方法和增量解码方法。3) 实现了基于查询特点的动态策略选择和资源分配,从而实现了更好的准确性-成本权衡。

关键设计:具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未知信息。但可以推测,策略选择模块可能使用机器学习模型来预测不同策略的性能,资源分配模块可能使用强化学习来优化计算资源的分配。

📊 实验亮点

实验结果表明,该方法在推理基准测试中始终优于静态策略,实现了更好的准确性-成本权衡。具体的性能数据和提升幅度在摘要中没有给出,属于未知信息。但可以推断,该方法在保证一定准确率的前提下,显著降低了token使用量和推理延迟。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景,例如智能助手、对话系统、自动代码生成等。通过动态调整计算资源,可以在保证服务质量的前提下,降低推理成本,提高用户体验。尤其是在资源受限的边缘设备上,该方法具有重要的应用价值。

📄 摘要(原文)

Inference-time scaling has emerged as a powerful way to improve large language model (LLM) performance by generating multiple candidate responses and selecting among them. However, existing work on dynamic allocation for test-time compute typically considers only parallel generation methods such as best-of-N, overlooking incremental decoding methods like beam search, and has largely ignored latency, focusing only on token usage. We formulate inference-time scaling as a problem of dynamic compute allocation and method selection, where the system must decide which strategy to apply and how much compute to allocate on a per-query basis. Our framework explicitly incorporates both token cost and wall-clock latency, the latter being critical for user experience and particularly for agentic workflows where models must issue multiple queries efficiently. Experiments on reasoning benchmarks show that our approach consistently outperforms static strategies, achieving favorable accuracy-cost trade-offs while remaining practical for deployment.