Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search
作者: Yingqian Cui, Zhenwei Dai, Pengfei He, Bing He, Hui Liu, Xianfeng Tang, Jingying Zeng, Suhang Wang, Yue Xing, Jiliang Tang, Benoit Dumoulin
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-09-29
💡 一句话要点
提出基于奖励引导的双阶段搜索,提升LLM在推理任务中的效率与准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理任务 双阶段搜索 奖励模型 规划执行 动态预算分配 数学推理 代码生成
📋 核心要点
- 现有基于树搜索的LLM推理方法,对推理过程分解简单,忽略了规划-执行的本质,导致效率低下。
- 论文提出双阶段搜索框架,将推理过程显式地分为规划和执行阶段,并分别进行搜索和优化。
- 实验表明,该方法在数学推理和代码生成任务上,能提高准确率并减少冗余计算。
📝 摘要(中文)
大型语言模型(LLM)在推理任务中取得了显著进展。一种关键方法是基于树的搜索与验证器,它扩展候选推理路径并使用奖励模型来指导剪枝和选择。尽管这些方法在提高准确性方面有效,但在效率方面并非最佳:它们对推理过程执行简单的分解,但忽略了数学推理或代码生成等任务的规划-执行性质。这导致推理过程的低效探索。为了解决这个问题,我们提出了一个双阶段测试时缩放框架,该框架明确地将推理分为规划和执行,并分别对这两个阶段执行搜索。具体来说,我们分解推理轨迹,并为每个阶段开发奖励模型,使搜索能够分别探索和剪枝计划和执行。我们进一步引入了一种动态预算分配机制,该机制根据奖励反馈自适应地重新分配采样工作,从而允许在有信心的步骤上提前停止,并将计算重新分配给推理过程中更具挑战性的部分。在数学推理和代码生成基准上的实验表明,我们的方法在减少冗余计算的同时,始终如一地提高了准确性。
🔬 方法详解
问题定义:现有基于树搜索的LLM推理方法,例如在数学推理和代码生成任务中,通常采用简单的分解方式,没有充分考虑任务的规划-执行特性。这种方式导致搜索空间庞大,效率低下,浪费计算资源。因此,如何更有效地探索推理过程,提高推理效率和准确性,是本文要解决的核心问题。
核心思路:论文的核心思路是将推理过程分解为规划和执行两个阶段,并分别对这两个阶段进行搜索和优化。规划阶段负责制定推理方案,执行阶段负责根据方案执行具体步骤。通过这种分解,可以更有效地利用奖励模型,分别对规划和执行进行评估和剪枝,从而减少搜索空间,提高推理效率。
技术框架:该框架包含规划阶段和执行阶段。在规划阶段,模型生成多个推理计划,并使用奖励模型对这些计划进行评估。然后,选择奖励最高的计划进入执行阶段。在执行阶段,模型根据选定的计划执行具体步骤,并使用另一个奖励模型对执行结果进行评估。框架还包含一个动态预算分配机制,该机制根据奖励反馈自适应地调整规划和执行阶段的计算资源分配。如果某个阶段的奖励较高,则分配更多的计算资源给该阶段,反之则减少分配。
关键创新:该论文的关键创新在于提出了双阶段搜索框架,将推理过程分解为规划和执行阶段,并分别进行搜索和优化。这种分解方式更符合人类的推理过程,可以更有效地利用奖励模型,减少搜索空间,提高推理效率。此外,动态预算分配机制可以根据奖励反馈自适应地调整计算资源分配,进一步提高推理效率。
关键设计:论文为规划和执行阶段分别设计了奖励模型。规划阶段的奖励模型用于评估推理计划的质量,执行阶段的奖励模型用于评估执行结果的质量。奖励模型可以使用各种机器学习方法进行训练,例如监督学习或强化学习。动态预算分配机制可以使用各种优化算法进行实现,例如梯度下降或进化算法。具体的参数设置和网络结构取决于具体的任务和数据集。
📊 实验亮点
实验结果表明,该方法在数学推理和代码生成任务上均取得了显著的性能提升。例如,在数学推理任务上,该方法在准确率提升的同时,减少了冗余计算。与现有方法相比,该方法能够更有效地利用计算资源,提高推理效率。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、自然语言理解和对话系统。通过提高LLM的推理效率和准确性,可以使这些应用更加智能和可靠。此外,该方法还可以应用于机器人控制等领域,使机器人能够更好地规划和执行任务。
📄 摘要(原文)
Large Language Models (LLMs) have achieved significant advances in reasoning tasks. A key approach is tree-based search with verifiers, which expand candidate reasoning paths and use reward models to guide pruning and selection. Although effective in improving accuracy, these methods are not optimal in terms of efficiency: they perform simple decomposition on the reasoning process, but ignore the planning-execution nature of tasks such as math reasoning or code generation. This results in inefficient exploration of reasoning process. To address this, we propose a dual-phase test-time scaling framework that explicitly separates reasoning into planning and execution, and performs search over the two phases individually. Specifically, we decompose reasoning trajectories and develop reward models for each phase, enabling the search to explore and prune plans and executions separately. We further introduce a dynamic budget allocation mechanism that adaptively redistributes sampling effort based on reward feedback, allowing early stopping on confident steps and reallocation of computation to more challenging parts of the reasoning process. Experiments on both mathematical reasoning and code generation benchmarks demonstrate that our approach consistently improves accuracy while reducing redundant computation.