Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

📄 arXiv: 2603.01741v1 📥 PDF

作者: Naoki Shitanda, Motoki Omura, Tatsuya Harada, Takayuki Osa

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-03-02

备注: In ICLR 2026. Website at https://naoki04.github.io/paper-cpo/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出耦合策略优化算法,通过KL约束调控策略多样性,提升大规模强化学习效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 集成策略梯度 策略多样性 KL散度约束 大规模探索

📋 核心要点

  1. 大规模强化学习面临单一策略探索能力有限的挑战,集成策略梯度方法旨在通过多个策略提升探索。
  2. 论文提出耦合策略优化(CPO),通过KL散度约束策略间多样性,避免过度探索导致的性能下降。
  3. 实验表明,CPO在样本效率和最终性能上优于SAPG、PBT和PPO等基线,尤其在灵巧操作任务中。

📝 摘要(中文)

为了将强化学习扩展到数万个并行环境,需要克服单一策略有限的探索能力。基于集成策略梯度的方法通过采用多个策略来收集多样化的样本,从而促进探索。然而,仅仅扩大探索空间并不总能提高学习能力,因为过度探索会降低探索质量或损害训练稳定性。本文从理论上分析了策略集成中策略间多样性对学习效率的影响,并提出了耦合策略优化(Coupled Policy Optimization, CPO),通过策略间的KL约束来调节多样性。所提出的方法能够实现有效的探索,并在多个任务(包括具有挑战性的灵巧操作)中,在样本效率和最终性能方面优于SAPG、PBT和PPO等强大的基线。此外,对训练期间策略多样性和有效样本量的分析表明,跟随者策略自然地分布在领导者周围,展示了结构化和高效探索行为的出现。我们的结果表明,在适当的调节下进行多样化探索是实现集成策略梯度方法中稳定和样本高效学习的关键。

🔬 方法详解

问题定义:在大规模强化学习中,如何有效地利用集成策略梯度方法进行探索是一个关键问题。简单地增加策略数量以扩大探索空间可能会导致过度探索,降低探索质量,并损害训练的稳定性。现有方法缺乏对策略多样性的有效调控机制,难以在探索效率和训练稳定性之间取得平衡。

核心思路:论文的核心思路是通过对策略之间的多样性进行显式调控,从而优化集成策略梯度方法的探索效率。具体而言,通过在策略之间引入KL散度约束,限制策略之间的差异程度,避免过度探索,同时保证一定的探索广度。这种方法旨在找到一个合适的策略多样性水平,以实现更稳定和样本高效的训练。

技术框架:CPO方法采用领导者-跟随者(leader-follower)的策略结构。其中,一个策略作为领导者,负责主要的策略更新;其余策略作为跟随者,其更新受到与领导者策略之间KL散度的约束。整体训练流程包括:1) 使用多个策略并行收集样本;2) 计算每个策略的梯度;3) 更新领导者策略;4) 使用KL散度约束更新跟随者策略。

关键创新:CPO的关键创新在于通过KL散度约束显式地调节策略之间的多样性。与现有方法相比,CPO不是简单地增加策略数量,而是通过控制策略之间的差异程度,实现更有效的探索。这种方法能够避免过度探索,提高探索质量,并增强训练的稳定性。

关键设计:CPO的关键设计包括:1) 使用KL散度作为策略之间差异的度量;2) 将KL散度约束添加到跟随者策略的更新目标中;3) 动态调整KL散度约束的强度,以适应不同的任务和训练阶段。此外,论文还分析了策略多样性和有效样本量之间的关系,为KL散度约束的调整提供了理论依据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CPO在多个任务中优于SAPG、PBT和PPO等基线算法。在具有挑战性的灵巧操作任务中,CPO在样本效率和最终性能方面均取得了显著提升。此外,对策略多样性和有效样本量的分析表明,跟随者策略自然地分布在领导者周围,验证了CPO能够实现结构化和高效的探索行为。

🎯 应用场景

该研究成果可应用于各种需要大规模探索的强化学习任务,例如机器人控制、游戏AI、自动驾驶等。通过有效调控策略多样性,可以提高强化学习算法的样本效率和训练稳定性,从而加速算法的部署和应用。尤其在复杂、高维的控制任务中,该方法具有重要的应用价值。

📄 摘要(原文)

Scaling reinforcement learning to tens of thousands of parallel environments requires overcoming the limited exploration capacity of a single policy. Ensemble-based policy gradient methods, which employ multiple policies to collect diverse samples, have recently been proposed to promote exploration. However, merely broadening the exploration space does not always enhance learning capability, since excessive exploration can reduce exploration quality or compromise training stability. In this work, we theoretically analyze the impact of inter-policy diversity on learning efficiency in policy ensembles, and propose Coupled Policy Optimization which regulates diversity through KL constraints between policies. The proposed method enables effective exploration and outperforms strong baselines such as SAPG, PBT, and PPO across multiple tasks, including challenging dexterous manipulation, in terms of both sample efficiency and final performance. Furthermore, analysis of policy diversity and effective sample size during training reveals that follower policies naturally distribute around the leader, demonstrating the emergence of structured and efficient exploratory behavior. Our results indicate that diverse exploration under appropriate regulation is key to achieving stable and sample-efficient learning in ensemble policy gradient methods. Project page at https://naoki04.github.io/paper-cpo/ .