Diffusion Policy through Conditional Proximal Policy Optimization

📄 arXiv: 2603.04790v1 📥 PDF

作者: Ben Liu, Shunpeng Yang, Hua Chen

分类: cs.LG, cs.RO

发布日期: 2026-03-05


💡 一句话要点

提出基于条件近端策略优化的扩散策略,提升强化学习中多模态行为建模能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散策略 强化学习 近端策略优化 多模态行为 on-policy学习

📋 核心要点

  1. 现有方法在on-policy强化学习中应用扩散策略时,难以高效计算动作对数似然,限制了其应用。
  2. 通过将策略迭代与扩散过程对齐,仅需评估简单的Gaussian概率,避免了昂贵的去噪过程。
  3. 实验结果表明,该方法在多模态行为建模方面表现出色,并在多个基准测试中取得了优异的性能。

📝 摘要(中文)

强化学习(RL)已广泛应用于游戏和机器人等决策问题。最近,扩散策略在建模多模态行为方面显示出强大的潜力,与传统的Gaussian策略相比,能够生成更多样化和灵活的动作。尽管有多种尝试将RL与扩散相结合,但一个关键挑战是难以计算扩散模型下的动作对数似然。这极大地阻碍了扩散策略在on-policy强化学习中的直接应用。现有方法大多通过扩散模型中的整个去噪过程来计算或近似对数似然,这在内存和计算上效率低下。为了克服这一挑战,我们提出了一种新颖而有效的方法,在on-policy设置中训练扩散策略,只需要评估一个简单的Gaussian概率。这是通过将策略迭代与扩散过程对齐来实现的,这与之前的工作相比是一种截然不同的范例。此外,我们的公式可以自然地处理熵正则化,这通常很难融入扩散策略中。实验表明,该方法能够产生多模态策略行为,并在IsaacLab和MuJoCo Playground中的各种基准任务上实现了卓越的性能。

🔬 方法详解

问题定义:论文旨在解决在on-policy强化学习中,直接应用扩散策略时计算动作对数似然的难题。现有方法需要通过整个扩散模型的去噪过程来计算或近似对数似然,导致计算和内存效率低下。这阻碍了扩散策略在需要快速迭代和高效采样的on-policy RL算法中的应用。

核心思路:论文的核心思路是将策略迭代过程与扩散过程对齐。通过这种对齐,可以将复杂的扩散模型动作采样过程简化为评估一个简单的Gaussian概率。这种方法避免了直接计算扩散模型的对数似然,从而显著提高了计算效率。此外,该方法还能够自然地处理熵正则化,这在传统的扩散策略中通常难以实现。

技术框架:该方法基于条件近端策略优化(Conditional Proximal Policy Optimization, CPPO)。整体框架包括:1) 使用扩散模型生成动作;2) 通过条件概率将动作与状态关联;3) 使用近端策略优化(PPO)更新策略参数。关键在于,策略更新不再依赖于扩散模型的完整对数似然计算,而是通过一个简化的Gaussian概率进行近似。

关键创新:该方法最重要的创新点在于将策略迭代与扩散过程对齐,从而避免了直接计算扩散模型的对数似然。这使得在on-policy强化学习中高效地训练扩散策略成为可能。与现有方法相比,该方法不需要通过整个去噪过程来计算或近似对数似然,从而显著提高了计算效率和内存利用率。

关键设计:论文使用条件扩散模型来生成动作,该模型以状态作为条件。损失函数基于PPO的目标函数,并添加了熵正则化项。网络结构包括一个Actor网络和一个Critic网络,Actor网络使用扩散模型生成动作,Critic网络评估状态-动作对的价值。关键参数包括扩散模型的噪声调度、PPO的裁剪参数和熵正则化的系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在IsaacLab和MuJoCo Playground中的多个基准任务上取得了显著的性能提升。与传统的Gaussian策略相比,该方法能够生成更多样化的动作,并取得更高的奖励。具体而言,在某些任务上,该方法能够将性能提升超过20%。此外,实验还验证了该方法能够有效地处理熵正则化,从而进一步提升策略的探索能力。

🎯 应用场景

该研究成果可广泛应用于机器人控制、游戏AI、自动驾驶等需要多模态行为建模的强化学习任务中。例如,机器人可以学习执行多种不同的抓取策略,自动驾驶系统可以学习在不同交通状况下采取不同的驾驶行为。该方法能够提升智能体在复杂环境中的适应性和鲁棒性,具有重要的实际应用价值。

📄 摘要(原文)

Reinforcement learning (RL) has been extensively employed in a wide range of decision-making problems, such as games and robotics. Recently, diffusion policies have shown strong potential in modeling multi-modal behaviors, enabling more diverse and flexible action generation compared to the conventional Gaussian policy. Despite various attempts to combine RL with diffusion, a key challenge is the difficulty of computing action log-likelihood under the diffusion model. This greatly hinders the direct application of diffusion policies in on-policy reinforcement learning. Most existing methods calculate or approximate the log-likelihood through the entire denoising process in the diffusion model, which can be memory- and computationally inefficient. To overcome this challenge, we propose a novel and efficient method to train a diffusion policy in an on-policy setting that requires only evaluating a simple Gaussian probability. This is achieved by aligning the policy iteration with the diffusion process, which is a distinct paradigm compared to previous work. Moreover, our formulation can naturally handle entropy regularization, which is often difficult to incorporate into diffusion policies. Experiments demonstrate that the proposed method produces multimodal policy behaviors and achieves superior performance on a variety of benchmark tasks in both IsaacLab and MuJoCo Playground.