Sample-Efficient Policy Constraint Offline Deep Reinforcement Learning based on Sample Filtering

📄 arXiv: 2512.20115v1 📥 PDF

作者: Yuanhao Chen, Qi Liu, Pengbin Chen, Zhongjian Qiao, Yanjie Li

分类: cs.LG

发布日期: 2025-12-23


💡 一句话要点

提出基于样本过滤的策略约束离线深度强化学习方法,提升样本效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 策略约束 样本过滤 深度强化学习 分布偏移

📋 核心要点

  1. 离线强化学习受分布偏移问题困扰,策略约束方法虽能缓解,但易受数据集中低回报样本的影响。
  2. 论文提出一种样本过滤方法,通过评估转移样本的分数,筛选出高质量样本用于训练,提升学习效率。
  3. 实验结果表明,该方法在多个离线强化学习算法和基准任务中,均优于现有基线方法,验证了有效性。

📝 摘要(中文)

离线强化学习旨在利用给定的静态数据集学习策略,以最大化预期回报。然而,离线强化学习面临分布偏移问题。策略约束离线强化学习方法被提出以解决该问题。在策略约束离线强化学习训练中,确保学习到的策略与行为策略之间的差异在给定阈值内非常重要。因此,学习到的策略严重依赖于行为策略的质量。然而,现有策略约束方法存在一个问题:如果数据集包含许多低回报的转移样本,学习到的策略将包含次优参考策略,导致学习速度慢、样本效率低和性能差。本文表明,策略约束离线强化学习中使用的所有数据集转移样本的采样方法可以改进。提出了一种简单而有效的样本过滤方法,以提高样本效率和最终性能。首先,我们通过数据集中episode的平均奖励和平均折扣奖励来评估转移样本的分数,并提取高分数的转移样本。其次,高分数的转移样本用于训练离线强化学习算法。我们在一些离线强化学习算法和基准任务中验证了所提出的方法。实验结果表明,该方法优于基线。

🔬 方法详解

问题定义:离线强化学习中,策略约束方法旨在解决分布偏移问题,但当离线数据集包含大量低回报的转移样本时,学习到的策略会受到次优行为策略的限制,导致学习速度慢、样本效率低,最终性能不佳。现有方法没有有效区分和利用高质量样本。

核心思路:核心在于通过样本过滤,优先选择高质量(高回报)的转移样本进行训练。这样可以减少低质量样本对策略学习的负面影响,使学习过程更关注有价值的经验,从而提高样本效率和最终性能。

技术框架:整体框架包含两个主要阶段:1) 样本评分与过滤:对离线数据集中的每个转移样本进行评分,评分依据是包含该样本的episode的平均奖励和平均折扣奖励。然后,根据设定的阈值,筛选出高分数的转移样本。2) 离线强化学习训练:使用过滤后的高质量样本,训练现有的离线强化学习算法(如BCQ、CQL等)。

关键创新:关键创新在于提出了简单有效的样本过滤机制,该机制能够区分离线数据集中的高质量和低质量样本,并优先利用高质量样本进行训练。与直接使用所有样本的方法相比,该方法能够更有效地利用数据,避免了低质量样本的干扰。

关键设计:样本评分函数的设计是关键。论文采用episode的平均奖励和平均折扣奖励作为评分标准,这能够反映转移样本的长期价值。此外,过滤阈值的选择也会影响最终性能,需要在实际应用中进行调整。没有涉及特定的网络结构或损失函数,而是将该方法应用于现有的离线强化学习算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的样本过滤方法能够显著提升离线强化学习的性能。在多个基准任务上,该方法优于现有的策略约束离线强化学习算法。例如,在某些任务上,该方法能够将性能提升超过10%,并且能够更快地收敛到最优策略。

🎯 应用场景

该研究成果可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、推荐系统等。尤其是在数据质量参差不齐的情况下,该方法能够有效提升学习效率和策略性能。通过过滤低质量数据,可以降低数据收集成本,并加速策略迭代过程。

📄 摘要(原文)

Offline reinforcement learning (RL) aims to learn a policy that maximizes the expected return using a given static dataset of transitions. However, offline RL faces the distribution shift problem. The policy constraint offline RL method is proposed to solve the distribution shift problem. During the policy constraint offline RL training, it is important to ensure the difference between the learned policy and behavior policy within a given threshold. Thus, the learned policy heavily relies on the quality of the behavior policy. However, a problem exists in existing policy constraint methods: if the dataset contains many low-reward transitions, the learned will be contained with a suboptimal reference policy, leading to slow learning speed, low sample efficiency, and inferior performances. This paper shows that the sampling method in policy constraint offline RL that uses all the transitions in the dataset can be improved. A simple but efficient sample filtering method is proposed to improve the sample efficiency and the final performance. First, we evaluate the score of the transitions by average reward and average discounted reward of episodes in the dataset and extract the transition samples of high scores. Second, the high-score transition samples are used to train the offline RL algorithms. We verify the proposed method in a series of offline RL algorithms and benchmark tasks. Experimental results show that the proposed method outperforms baselines.