Reinforcing Diffusion Models by Direct Group Preference Optimization

📄 arXiv: 2510.08425v1 📥 PDF

作者: Yihong Luo, Tianyang Hu, Jing Tang

分类: cs.LG, cs.CV

发布日期: 2025-10-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出直接群体偏好优化(DGPO),加速并提升扩散模型的强化学习训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 强化学习 群体偏好优化 确定性采样 在线学习

📋 核心要点

  1. 现有方法在扩散模型上应用强化学习时,依赖低效的SDE采样器引入随机性,导致训练缓慢。
  2. DGPO直接从群体偏好学习,无需策略梯度,从而可以使用高效的确定性ODE采样器。
  3. 实验表明,DGPO比现有方法快20倍,并在领域内和领域外奖励指标上表现更优。

📝 摘要(中文)

尽管群体相对偏好优化(GRPO)等强化学习方法显著提升了大型语言模型,但将其应用于扩散模型仍然充满挑战。特别是,GRPO需要一个随机策略,而最具成本效益的扩散采样器是基于确定性ODE的。最近的工作通过使用低效的基于SDE的采样器来引入随机性来解决这个问题,但这种对模型无关的高斯噪声的依赖导致收敛速度缓慢。为了解决这个冲突,我们提出了一种新的在线强化学习算法——直接群体偏好优化(DGPO),它完全摒弃了策略梯度框架。DGPO直接从群体层面的偏好中学习,利用群体内样本的相对信息。这种设计消除了对低效随机策略的需求,从而可以使用高效的确定性ODE采样器并加快训练速度。大量结果表明,DGPO的训练速度比现有最先进的方法快约20倍,并且在领域内和领域外的奖励指标上都取得了优异的性能。代码可在https://github.com/Luo-Yihong/DGPO获取。

🔬 方法详解

问题定义:现有方法在将强化学习应用于扩散模型时,面临一个关键挑战:GRPO等算法需要随机策略,而扩散模型中最有效的采样器是基于确定性常微分方程(ODE)的。为了满足GRPO的需求,一些工作尝试使用基于随机微分方程(SDE)的采样器来引入随机性,但这种方法效率低下,收敛速度慢。因此,如何高效地将强化学习应用于扩散模型,同时避免使用低效的SDE采样器,是一个亟待解决的问题。

核心思路:DGPO的核心思路是直接从群体层面的偏好中学习,而无需显式地构建和优化策略。它利用群体内样本的相对信息,通过比较不同样本的优劣来指导模型的训练。这种方法避免了对随机策略的依赖,从而可以使用高效的确定性ODE采样器。

技术框架:DGPO的整体框架包括以下几个主要步骤:1) 从扩散模型中采样一组样本;2) 根据奖励函数或人类反馈,对这些样本进行排序,形成群体偏好;3) 使用群体偏好信息,直接更新扩散模型的参数,而无需计算策略梯度。DGPO算法是一个在线学习算法,这意味着它可以在训练过程中不断地收集数据并更新模型。

关键创新:DGPO最重要的创新在于它摒弃了传统的策略梯度框架,直接从群体偏好中学习。这使得它能够避免对随机策略的依赖,从而可以使用高效的确定性ODE采样器。此外,DGPO还利用了群体内样本的相对信息,这有助于提高学习效率和稳定性。

关键设计:DGPO的关键设计包括:1) 使用群体偏好损失函数,该函数鼓励模型生成更符合群体偏好的样本;2) 使用高效的确定性ODE采样器,例如DDIM或PLMS,来生成样本;3) 使用在线学习的方式,不断地收集数据并更新模型。具体的损失函数形式和优化算法可以根据具体的应用场景进行调整。

📊 实验亮点

DGPO在实验中表现出色,训练速度比现有最先进的方法快约20倍,并且在领域内和领域外的奖励指标上都取得了优异的性能。这表明DGPO能够有效地利用群体偏好信息,并避免对低效随机策略的依赖。实验结果充分证明了DGPO的有效性和优越性。

🎯 应用场景

DGPO具有广泛的应用前景,例如图像生成、文本生成、音频生成等。它可以用于训练高质量的扩散模型,从而生成更逼真、更符合用户需求的样本。此外,DGPO还可以应用于个性化推荐、风格迁移等领域,为用户提供更加个性化的服务。未来,DGPO有望成为扩散模型强化学习训练的重要工具。

📄 摘要(原文)

While reinforcement learning methods such as Group Relative Preference Optimization (GRPO) have significantly enhanced Large Language Models, adapting them to diffusion models remains challenging. In particular, GRPO demands a stochastic policy, yet the most cost-effective diffusion samplers are based on deterministic ODEs. Recent work addresses this issue by using inefficient SDE-based samplers to induce stochasticity, but this reliance on model-agnostic Gaussian noise leads to slow convergence. To resolve this conflict, we propose Direct Group Preference Optimization (DGPO), a new online RL algorithm that dispenses with the policy-gradient framework entirely. DGPO learns directly from group-level preferences, which utilize relative information of samples within groups. This design eliminates the need for inefficient stochastic policies, unlocking the use of efficient deterministic ODE samplers and faster training. Extensive results show that DGPO trains around 20 times faster than existing state-of-the-art methods and achieves superior performance on both in-domain and out-of-domain reward metrics. Code is available at https://github.com/Luo-Yihong/DGPO.