Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces

📄 arXiv: 2509.22963v2 📥 PDF

作者: Haitong Ma, Ofir Nabati, Aviv Rosenberg, Bo Dai, Oran Lang, Idan Szpektor, Craig Boutilier, Na Li, Shie Mannor, Lior Shani, Guy Tenneholtz

分类: cs.LG

发布日期: 2025-09-26 (更新: 2025-10-01)

备注: 22 pages, 10 figures. Haitong Ma and Ofir Nabati contributed equally to this paper


💡 一句话要点

提出基于离散扩散策略的强化学习方法,解决组合动作空间难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 离散扩散模型 组合动作空间 策略镜像下降 分布匹配 策略学习 组合优化

📋 核心要点

  1. 强化学习在处理大规模组合动作空间时面临挑战,现有方法难以有效扩展。
  2. 利用策略镜像下降定义目标策略分布,将策略更新视为分布匹配问题,训练扩散模型。
  3. 在多个组合优化任务上,该方法实现了优于现有技术的性能和更高的样本效率。

📝 摘要(中文)

本文提出了一种新的框架,用于训练离散扩散模型,使其成为复杂组合动作空间中高效的强化学习策略。核心创新在于高效的在线训练过程,确保策略改进的稳定性和有效性。通过利用策略镜像下降(PMD)定义理想的、正则化的目标策略分布,将策略更新转化为分布匹配问题,训练具有表达能力的扩散模型来复制这种稳定的目标。这种解耦方法稳定了学习过程,显著提高了训练性能。在包括DNA序列生成、宏动作强化学习和多智能体系统等一系列具有挑战性的组合基准测试中,该方法取得了最先进的结果和卓越的样本效率。实验表明,扩散策略相比其他基线方法获得了更优越的性能。

🔬 方法详解

问题定义:论文旨在解决强化学习在具有大规模组合动作空间环境下的应用难题。传统的强化学习方法,如基于值函数或策略梯度的方法,在面对组合动作空间时,由于动作数量巨大,探索效率低,训练不稳定,难以收敛到最优策略。现有方法的痛点在于无法有效地处理这种高维离散动作空间,导致学习效率低下。

核心思路:论文的核心思路是将强化学习策略的学习过程建模为一个分布匹配问题。具体来说,通过策略镜像下降(PMD)算法,定义一个理想的、正则化的目标策略分布。然后,利用离散扩散模型来学习逼近这个目标策略分布。这样,策略的更新不再是直接优化策略参数,而是训练扩散模型去拟合一个更加稳定和可控的目标分布,从而提高学习的稳定性和效率。

技术框架:整体框架包含以下几个主要阶段: 1. 环境交互:智能体与环境交互,收集经验数据。 2. 目标策略计算:利用策略镜像下降(PMD)算法,根据收集到的经验数据,计算出一个正则化的目标策略分布。 3. 扩散模型训练:使用收集到的经验数据和计算出的目标策略分布,训练离散扩散模型,使其能够生成逼近目标策略的动作。 4. 策略执行:使用训练好的扩散模型作为策略,指导智能体在环境中执行动作。

关键创新:论文最重要的技术创新点在于将离散扩散模型引入强化学习策略的学习中,并将其与策略镜像下降算法相结合。与传统的强化学习方法相比,该方法通过学习一个分布来表示策略,而不是直接优化策略参数,从而提高了学习的稳定性和泛化能力。此外,使用策略镜像下降算法来定义目标策略分布,可以有效地避免策略的剧烈变化,进一步稳定学习过程。

关键设计: * 离散扩散模型:使用离散扩散模型来表示策略,模型结构的选择需要根据具体的任务进行调整,例如可以使用Transformer结构。 * 策略镜像下降(PMD):PMD算法用于计算目标策略分布,需要选择合适的正则化项和学习率。 * 损失函数:训练扩散模型的损失函数通常采用交叉熵损失,用于衡量扩散模型生成的动作分布与目标策略分布之间的差异。 * 采样方法:从扩散模型中采样动作时,可以使用不同的采样策略,例如ancestral sampling或Denoising Diffusion Implicit Models (DDIM)。

📊 实验亮点

实验结果表明,该方法在DNA序列生成、宏动作强化学习和多智能体系统等多个具有挑战性的组合优化任务上取得了最先进的性能。例如,在DNA序列生成任务中,该方法生成的序列质量明显优于其他基线方法。在宏动作强化学习任务中,该方法能够学习到更加高效的宏动作策略,从而显著提高学习效率。实验还表明,该方法具有更高的样本效率,能够在更少的训练样本下达到更好的性能。

🎯 应用场景

该研究成果具有广泛的应用前景,可应用于组合优化、机器人控制、推荐系统、药物发现等领域。例如,在机器人控制中,可以利用该方法学习复杂的动作序列,从而实现更加灵活和高效的控制策略。在推荐系统中,可以利用该方法生成个性化的推荐列表,提高用户满意度。在药物发现领域,可以用于生成具有特定性质的分子结构。

📄 摘要(原文)

Reinforcement learning (RL) struggles to scale to large, combinatorial action spaces common in many real-world problems. This paper introduces a novel framework for training discrete diffusion models as highly effective policies in these complex settings. Our key innovation is an efficient online training process that ensures stable and effective policy improvement. By leveraging policy mirror descent (PMD) to define an ideal, regularized target policy distribution, we frame the policy update as a distributional matching problem, training the expressive diffusion model to replicate this stable target. This decoupled approach stabilizes learning and significantly enhances training performance. Our method achieves state-of-the-art results and superior sample efficiency across a diverse set of challenging combinatorial benchmarks, including DNA sequence generation, RL with macro-actions, and multi-agent systems. Experiments demonstrate that our diffusion policies attain superior performance compared to other baselines.