Expanding Computation Spaces of LLMs at Inference Time

📄 arXiv: 2509.24884v1 📥 PDF

作者: Yoonna Jang, Kisu Yang, Isabelle Augenstein

分类: cs.CL

发布日期: 2025-09-29


💡 一句话要点

提出一种推理时扩展LLM计算空间的方法,提升问题解决能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理时扩展 计算空间 填充token 注意力机制

📋 核心要点

  1. 现有方法依赖训练额外的token来扩展计算空间,增加了训练成本和模型复杂度。
  2. 该研究探索在推理阶段,通过插入填充token序列来扩展LLM的计算空间,无需额外训练。
  3. 实验表明,适当的填充token类型和位置可以显著提升模型在问答和数学任务上的性能,尤其对小模型提升明显。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在推理时,能否通过人工插入填充词序列来扩展其计算空间。不同于以往训练填充词或特殊token作为额外计算空间的方法,本文探索了仅在推理阶段插入填充词序列的可能性。研究首先确定了有效的token类型、数量和插入位置,然后考察了模型在训练的哪个阶段开始利用扩展的计算空间,最后通过注意力图分析了这些空间内的动态。在1.7B到32B的模型上,针对开放域问答和数学任务的实验表明,适当的token类型和数量有所不同,但将填充词直接放在最终的'Answer:' token之前是最有效的。较小的模型受益最大,在SmolLM2-1.7B-Instruct中提升高达12.372个百分点,表明这些空间充当了额外的计算能力,而不是冗余输入。注意力图显示,扩展的空间通常延续了原始的注意力机制,有时会关注问题或答案选项,表明其对问题解决具有有意义的计算。

🔬 方法详解

问题定义:现有的大语言模型在解决复杂问题时,计算能力受限于模型参数和输入长度。以往扩展计算空间的方法通常需要额外的训练,例如训练特定的填充token或特殊token,这增加了训练成本和模型复杂度。因此,如何在不进行额外训练的情况下,有效扩展LLM的计算空间是一个重要的研究问题。

核心思路:本文的核心思路是在推理阶段,通过在输入文本中人工插入一段填充token序列,来扩展LLM的计算空间。这种方法无需修改模型参数或进行额外的训练,只需要在推理时对输入进行简单的处理。通过调整填充token的类型、数量和插入位置,可以优化扩展计算空间的效果。

技术框架:该方法主要包含以下几个步骤:1) 选择合适的填充token类型,例如常见的token或随机生成的token;2) 确定填充token的数量,通过实验找到最佳的数量;3) 确定填充token的插入位置,例如在问题之后、答案之前等;4) 将填充token序列插入到输入文本中,然后输入到LLM中进行推理;5) 分析LLM的输出结果,评估填充token对模型性能的影响。

关键创新:该方法最重要的创新点在于,它提出了一种无需额外训练,仅在推理阶段即可扩展LLM计算空间的方法。与以往需要训练填充token或特殊token的方法相比,该方法更加简单、高效,并且可以灵活地应用于不同的LLM和任务。

关键设计:关键的设计包括:1) 填充token类型的选择,实验发现不同的token类型对模型性能的影响不同;2) 填充token数量的确定,实验表明存在一个最佳的token数量,过多或过少都会降低模型性能;3) 填充token插入位置的选择,实验发现将填充token插入到答案之前效果最好;4) 使用注意力图来分析填充token对模型行为的影响,从而更好地理解扩展计算空间的作用。

📊 实验亮点

实验结果表明,在推理时插入填充token可以显著提升LLM在开放域问答和数学任务上的性能。对于较小的模型,例如SmolLM2-1.7B-Instruct,性能提升高达12.372个百分点。注意力图分析显示,扩展的计算空间能够延续原始的注意力机制,并关注问题或答案选项,表明其对问题解决具有实际意义。

🎯 应用场景

该研究成果可应用于各种需要扩展LLM计算能力的场景,例如复杂问题求解、长文本理解、知识库问答等。通过在推理时动态扩展计算空间,可以提升LLM在资源受限环境下的性能,并降低部署成本。该方法还可用于探索LLM的内部计算机制,为模型优化和改进提供新的思路。

📄 摘要(原文)

Chain-of-thought (CoT) rationale enables language models to use additional task-related text for problem-solving, benefiting not only from detailed reasoning steps but also from the expanded computational space of longer inputs. Prior work has trained filler or special tokens to serve as additional computation spaces. In this study, we investigate whether language models can leverage artificially inserted sequences of filler tokens solely at inference. We first identify effective token types, numbers, and insertion locations, then examine at what stage of training models begin to exploit the expanded computation space, and finally analyze dynamics within these spaces via attention maps. Experiments on models ranging from 1.7B to 32B across open-domain QA and math tasks show that appropriate token types and counts vary, but placing filler tokens directly before the final 'Answer:' token is most effective. Smaller models benefit most, up to 12.372 percentage points in SmolLM2-1.7B-Instruct, indicating that these spaces act as additional computational capacity rather than redundant input. Attention maps reveal that expanded spaces often continue the original attention mechanism and sometimes focus on questions or answer options, suggesting meaningful computation for problem-solving.