The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

📄 arXiv: 2509.09677v2 📥 PDF

作者: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping

分类: cs.AI

发布日期: 2025-09-11 (更新: 2025-09-28)


💡 一句话要点

揭示LLM长程执行能力:单步精度提升带来任务完成长度的指数级增长

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 长程执行 执行能力 自我调节效应 思维过程 推理与执行 任务规划

📋 核心要点

  1. 现有短任务基准测试可能低估了LLM的潜力,因为单步精度的微小提升能显著提高长任务的完成度。
  2. 论文核心在于隔离LLM的执行能力,通过提供知识和计划,专注于模型在已知条件下的执行效果。
  3. 实验表明,更大模型在长程任务中表现更好,但存在自我调节效应,思维过程能有效缓解此问题。

📝 摘要(中文)

本文研究了大型语言模型(LLM)持续扩展是否会产生收益递减的现象。研究表明,短任务基准测试可能会产生进展放缓的错觉,因为单步准确率的边际收益可以转化为模型成功完成任务长度的指数级改进。论文认为,当简单任务变长时,LLM的失败源于执行中的错误,而非推理能力不足。因此,论文通过显式提供解决长程任务所需的知识和计划来隔离执行能力。研究发现,即使小型模型具有接近完美的单步准确率,更大的模型也能正确执行更多的轮次。同时观察到,模型的每步准确率随着步数的增加而降低,这不仅是由于长上下文限制,还存在一种自我调节效应——当上下文中包含先前轮次的错误时,模型更容易出错。仅仅扩展模型大小并不能减少自我调节。但思维过程可以缓解自我调节,并支持在单轮中执行更长的任务。最后,论文对前沿思维模型在单轮中可以执行的任务长度进行了基准测试。总的来说,通过关注执行能力,希望能够调和LLM如何解决复杂的推理问题,但在任务变长时却失败的争论,并强调了扩展模型大小和顺序测试时计算对于长程任务的巨大好处。

🔬 方法详解

问题定义:论文旨在解决LLM在长程任务中表现不佳的问题。现有研究往往侧重于推理能力,而忽略了执行能力。当简单任务被拉长时,即使LLM具备解决单步问题的能力,也可能因为执行过程中的错误而导致整体失败。现有方法难以区分LLM是缺乏推理能力还是执行能力。

核心思路:论文的核心思路是将LLM的推理和执行能力解耦。通过显式地为LLM提供完成长程任务所需的知识和计划,从而将问题简化为执行问题。这样可以更清晰地评估LLM的执行能力,并分析其在长程任务中失败的原因。

技术框架:论文的技术框架主要包括以下几个步骤: 1. 任务设计:设计一系列长程任务,这些任务需要多个步骤才能完成。 2. 知识和计划提供:为LLM提供完成任务所需的全部知识和详细的执行计划。 3. 执行评估:评估LLM在给定知识和计划的情况下,执行任务的准确率和完成度。 4. 错误分析:分析LLM在执行过程中出现的错误,并探究其原因。

关键创新:论文的关键创新在于: 1. 执行能力隔离:通过提供知识和计划,将LLM的执行能力从推理能力中隔离出来,从而可以更准确地评估其执行能力。 2. 自我调节效应:发现LLM存在自我调节效应,即模型更容易受到先前错误的影响,从而导致后续步骤的错误。 3. 思维过程缓解:发现思维过程可以有效缓解自我调节效应,并提高LLM在长程任务中的表现。

关键设计:论文的关键设计包括: 1. 任务难度控制:任务设计需要保证单步难度较低,确保LLM具备解决单步问题的能力,从而突出执行能力的影响。 2. 知识和计划的详尽程度:提供的知识和计划需要足够详尽,以消除LLM在推理方面的负担。 3. 评估指标:采用每步准确率和任务完成度作为评估指标,以全面评估LLM的执行能力。

📊 实验亮点

实验结果表明,更大的模型在长程执行任务中表现显著优于小型模型,即使小型模型在单步任务中表现接近完美。论文还发现了一种自我调节效应,即模型更容易受到先前错误的影响。通过引入思维过程,可以有效缓解自我调节效应,并显著提高模型在长程任务中的表现。例如,思维过程使得模型能够执行更长的任务,单轮执行长度显著提升。

🎯 应用场景

该研究成果可应用于提升LLM在需要长期规划和执行的任务中的表现,例如:机器人控制、对话系统、代码生成等。通过关注和优化LLM的执行能力,可以使其更好地完成复杂的、多步骤的任务,从而拓展LLM的应用范围和实际价值。未来的研究可以进一步探索如何有效地缓解自我调节效应,并设计更有效的思维过程。

📄 摘要(原文)

Does continued scaling of large language models (LLMs) yield diminishing returns? In this work, we show that short-task benchmarks may give an illusion of slowing progress, as even marginal gains in single-step accuracy can compound into exponential improvements in the length of tasks a model can successfully complete. Then, we argue that failures of LLMs when simple tasks are made longer arise from mistakes in execution, rather than an inability to reason. So, we propose isolating execution capability, by explicitly providing the knowledge and plan needed to solve a long-horizon task. First, we find that larger models can correctly execute significantly more turns even when small models have near-perfect single-turn accuracy. We then observe that the per-step accuracy of models degrades as the number of steps increases. This is not just due to long-context limitations -- curiously, we observe a self-conditioning effect -- models become more likely to make mistakes when the context contains their errors from prior turns. Self-conditioning does not reduce by just scaling the model size. But, we find that thinking mitigates self-conditioning, and also enables execution of much longer tasks in a single turn. We conclude by benchmarking frontier thinking models on the length of tasks they can execute in a single turn. Overall, by focusing on the ability to execute, we hope to reconcile debates on how LLMs can solve complex reasoning problems yet fail at simple tasks when made longer, and highlight the massive benefits of scaling model size and sequential test-time compute for long-horizon tasks.