RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance
作者: Tianlang Chen, Minkai Xu, Jure Leskovec, Stefano Ermon
分类: cs.CL, cs.LG
发布日期: 2025-09-29
备注: 27 pages, 3 figures, 2 tables
💡 一句话要点
提出RFG:一种免奖励引导的扩散大语言模型推理测试时缩放方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 大语言模型 推理引导 免奖励学习 测试时缩放 数学推理 代码生成
📋 核心要点
- 自回归语言模型依赖密集标注的奖励模型引导推理,但扩散模型中间状态部分掩码,难以直接应用。
- RFG通过增强模型和参考模型的对数似然比参数化过程奖励,无需显式奖励模型即可引导推理。
- 实验表明,RFG在数学推理和代码生成任务上显著提升了各种扩散模型的性能,最高提升9.2%。
📝 摘要(中文)
扩散大语言模型(dLLMs)在大型语言建模中展现出巨大潜力,人们越来越关注通过逐步引导推理过程来进一步提高其解决复杂问题的能力。自回归语言模型的常见做法是学习一个过程奖励模型,并对每个中间步骤进行密集标注。然而,这对于dLLMs来说具有挑战性,因为它们的生成是以任意顺序进行的,并且中间状态是部分掩码的句子。为此,本文提出了一种免奖励引导(RFG)方法,用于在没有显式过程奖励的情况下引导dLLMs的推理轨迹。RFG的关键思想是通过增强和参考dLLMs的对数似然比来参数化过程奖励,其中增强模型可以通过任何现成的、经过强化学习(RL)或监督微调(SFT)后训练的dLLM轻松获得。我们提供了理论证明,表明RFG在没有额外奖励的情况下诱导了奖励引导的采样分布。我们在四个具有挑战性的数学推理和代码生成基准上,使用各种经过不同后训练方法增强的dLLMs进行了全面的实验。RFG在所有任务和模型类型中始终产生显著的改进,实现了高达9.2%的准确率提升。这些发现将RFG确立为一个通用的、无需训练的框架,可以在不依赖外部奖励模型的情况下扩展测试时推理。
🔬 方法详解
问题定义:论文旨在解决扩散大语言模型(dLLMs)在复杂推理任务中,如何有效引导其推理过程的问题。现有方法,特别是针对自回归模型的奖励模型方法,依赖于对每个中间步骤的密集标注,这在dLLMs中不可行,因为dLLMs的生成是任意顺序的,中间状态是部分掩码的句子。因此,如何设计一种无需显式奖励模型,也能有效引导dLLMs推理的方法是关键挑战。
核心思路:论文的核心思路是利用一个增强的dLLM和一个参考dLLM的对数似然比来参数化过程奖励。增强的dLLM可以通过强化学习(RL)或监督微调(SFT)等方法获得,代表了期望的推理方向。通过比较增强模型和参考模型在每个步骤的生成概率,可以隐式地估计奖励,从而引导dLLM朝着更有利的方向生成。这种方法避免了显式奖励模型的训练和标注,简化了引导过程。
技术框架:RFG框架主要包含以下几个步骤:1) 准备一个增强的dLLM和一个参考dLLM。增强的dLLM通过RL或SFT等方法进行后训练,使其在特定任务上表现更好。参考dLLM可以是原始的dLLM,或者是一个经过不同方式训练的dLLM。2) 在推理过程中,对于每个生成步骤,计算增强模型和参考模型生成当前token的对数似然。3) 使用对数似然比作为隐式的过程奖励,并将其用于调整dLLM的采样分布,从而引导dLLM朝着更有利的方向生成。4) 重复步骤2和3,直到生成完整的输出。
关键创新:RFG最重要的技术创新在于它提出了一种免奖励的引导方法,避免了显式奖励模型的训练和标注。通过利用增强模型和参考模型的对数似然比,RFG可以隐式地估计过程奖励,并将其用于引导dLLM的推理过程。这种方法不仅简化了引导过程,还提高了引导的效率和泛化能力。与现有方法相比,RFG不需要额外的奖励模型训练,因此更加灵活和易于使用。
关键设计:RFG的关键设计在于如何选择增强模型和参考模型,以及如何使用对数似然比来调整采样分布。增强模型的选择取决于具体的任务和目标,可以选择经过RL或SFT等方法训练的模型。参考模型的选择也需要仔细考虑,可以选择原始的dLLM,或者是一个经过不同方式训练的dLLM。对数似然比的缩放系数是一个重要的超参数,需要根据具体的任务和模型进行调整。论文中并没有详细说明具体的损失函数或网络结构,因为RFG是一种通用的引导方法,可以应用于各种不同的dLLMs。
📊 实验亮点
实验结果表明,RFG在四个具有挑战性的数学推理和代码生成基准上,显著提升了各种扩散模型的性能。例如,在某些任务上,RFG实现了高达9.2%的准确率提升。这些结果表明,RFG是一种有效的、通用的、无需训练的引导方法,可以显著提升扩散模型的推理能力。
🎯 应用场景
RFG可广泛应用于需要复杂推理能力的场景,如数学问题求解、代码生成、逻辑推理等。该方法无需训练奖励模型,降低了应用门槛,有助于提升各种扩散模型的推理性能,具有重要的实际应用价值和广泛的未来影响。
📄 摘要(原文)
Diffusion large language models (dLLMs) have shown great potential in large-scale language modeling, and there is an increasing interest in further improving the capacity to solve complex problems by guiding the reasoning process step by step. Common practice for autoregressive language models typically learns a process reward model with dense annotation for each intermediate step. However, this is challenging for dLLMs where the generation is in an any-order fashion and intermediate states are partially masked sentences. To this end, in this paper, we propose reward-free guidance (RFG), a principled method for guiding the reasoning trajectory of dLLMs without explicit process reward. The key idea of RFG is to parameterize the process reward by log-likelihood ratios of the enhanced and reference dLLMs, where the enhanced model can be easily obtained by any off-the-shelf dLLM that has been post-trained with reinforcement learning (RL) or supervised fine-tuning (SFT). We provide theoretical justification that RFG induces the reward-guided sampling distribution with no additional reward. We conduct comprehensive experiments on four challenging mathematical reasoning and code generation benchmarks using a diverse suite of dLLMs enhanced with various post-training methods. RFG consistently yields significant improvements across all tasks and model types, achieving accuracy gains of up to 9.2%. These findings establish RFG as a general training-free framework that scales test-time reasoning without reliance on external reward models.