LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models
作者: Chenxing Wei, Jiazhen Kang, Hong Wang, Jianqing Zhang, Hao Jiang, Xiaolong Xu, Ningyuan Sun, Ying He, F. Richard Yu, Yao Shu, Bo Jiang
分类: cs.LG, cs.AI
发布日期: 2026-03-02
💡 一句话要点
提出LFPO,用于优化掩码扩散模型的无似然策略,提升代码生成和推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 强化学习 策略优化 无似然学习 代码生成 数学推理 向量场流匹配
📋 核心要点
- 现有方法在扩散模型中应用强化学习时,由于难以计算精确似然,导致梯度估计存在高方差。
- LFPO将策略优化问题转化为几何速度校正,通过对比学习直接优化去噪logits,避免了似然近似误差。
- 实验表明,LFPO在代码生成和推理任务上超越现有方法,并能减少扩散步骤,加速推理过程。
📝 摘要(中文)
本文提出了一种名为无似然策略优化(LFPO)的框架,用于改进掩码扩散模型。现有方法在将强化学习与可验证奖励(RLVR)应用于扩散大语言模型(dLLMs)时,由于精确似然计算的难处理性而受限,只能依赖高方差的近似。LFPO通过将向量场流匹配的概念映射到离散token空间来解决这个问题。具体来说,LFPO将对齐问题建模为几何速度校正,通过对比更新直接优化去噪logits,有效避免了似然近似带来的误差,从而实现精确的梯度估计。此外,LFPO通过预测中间步骤的最终解来强制一致性,有效地拉直概率流,从而以更少的迭代次数实现高质量的生成。实验表明,LFPO在代码和推理基准测试中优于最先进的基线方法,并通过减少扩散步骤将推理速度提高了约20%。
🔬 方法详解
问题定义:现有方法在将强化学习应用于扩散大语言模型时,面临着精确似然计算的难题。由于无法直接计算似然,现有方法依赖于高方差的近似方法,导致策略优化效果不佳,难以充分利用强化学习的优势。这限制了扩散模型在需要高正确性的任务(如代码生成和数学推理)中的应用。
核心思路:LFPO的核心思路是将策略优化问题转化为几何速度校正问题。通过将向量场流匹配的概念引入离散token空间,LFPO直接优化去噪过程中的logits,避免了对似然的近似计算。这种方法能够更精确地估计梯度,从而实现更有效的策略优化。
技术框架:LFPO框架主要包含两个关键部分:几何速度校正和一致性强化。几何速度校正通过对比学习的方式,优化扩散模型的去噪logits,使其更符合奖励函数的指导。一致性强化则通过预测中间步骤的最终解,来拉直概率流,提高生成质量并减少所需的扩散步骤。整体流程是,首先使用扩散模型生成样本,然后根据奖励函数计算奖励,接着使用LFPO算法更新模型参数,最后重复上述过程直到模型收敛。
关键创新:LFPO最重要的创新在于它绕过了对似然的直接计算,而是通过几何速度校正的方式直接优化去噪logits。这与现有方法依赖于似然近似的策略优化方法有着本质的区别。LFPO能够更精确地估计梯度,从而实现更有效的策略优化,尤其是在扩散模型中。
关键设计:LFPO的关键设计包括:1) 使用对比损失函数来优化去噪logits,鼓励模型生成更符合奖励函数的样本;2) 通过预测中间步骤的最终解来强制一致性,提高生成质量并减少所需的扩散步骤;3) 将向量场流匹配的概念引入离散token空间,为策略优化提供了新的视角。具体的参数设置和网络结构取决于具体的扩散模型和任务,但整体框架保持不变。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LFPO在代码生成和推理基准测试中显著优于现有方法。例如,在代码生成任务中,LFPO的性能超越了最先进的基线模型,并且通过减少扩散步骤,推理速度提高了约20%。这些结果表明,LFPO能够有效地提高扩散模型的性能,并加速推理过程。
🎯 应用场景
LFPO具有广泛的应用前景,尤其是在需要高正确性的生成任务中,例如代码生成、数学推理、文本编辑等。通过结合强化学习和扩散模型,LFPO可以生成更符合人类意图和约束的文本或代码,提高生成质量和效率。此外,LFPO还可以应用于其他类型的生成模型,例如图像生成和音频生成,具有很高的实际应用价值。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.