Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations

📄 arXiv: 2509.15981v2 📥 PDF

作者: Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana

分类: cs.LG, cs.AI, cs.RO, stat.ML

发布日期: 2025-09-19 (更新: 2025-10-31)

🔗 代码/项目: GITHUB


💡 一句话要点

SPReD:基于不确定性的平滑策略正则化,提升少样本演示强化学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模仿学习 不确定性量化 策略正则化 机器人控制

📋 核心要点

  1. 现有方法在利用演示数据时,难以准确判断何时应该模仿演示策略,何时应该遵循自身策略,导致学习效率低下。
  2. SPReD框架通过集成方法建模Q值分布,量化演示和策略动作的不确定性,并根据不确定性自适应地调整模仿的强度。
  3. 实验结果表明,SPReD在多个机器人任务中显著优于现有方法,尤其在复杂任务中提升显著,并对演示质量和数量具有鲁棒性。

📝 摘要(中文)

在稀疏奖励的强化学习中,演示数据可以加速学习,但如何决定何时模仿演示仍然是一个挑战。我们提出了基于演示的平滑策略正则化(SPReD)框架,它解决了核心问题:智能体应该何时模仿演示,何时遵循自己的策略?SPReD使用集成方法显式地建模演示和策略动作的Q值分布,量化不确定性以进行比较。我们开发了两种互补的、感知不确定性的方法:一种概率方法,用于估计演示优越性的可能性;以及一种基于优势的方法,通过统计显著性来缩放模仿。与进行二元模仿决策的现有方法(例如Q-filter)不同,SPReD应用连续的、与不确定性成比例的正则化权重,从而降低训练期间的梯度方差。尽管计算简单,SPReD在八个机器人任务的实验中取得了显著的收益,在复杂的任务中,性能优于现有方法高达14倍,同时保持了对演示质量和数量的鲁棒性。我们的代码可在https://github.com/YujieZhu7/SPReD 获得。

🔬 方法详解

问题定义:在稀疏奖励的强化学习环境中,如何有效地利用有限的演示数据来加速智能体的学习过程是一个关键问题。现有的方法,例如Q-filter,通常采用二元决策的方式来决定是否模仿演示,这种硬性的模仿策略容易引入偏差,并且忽略了演示数据本身的不确定性,导致学习效果不稳定。

核心思路:SPReD的核心思路是利用不确定性来平滑地调节模仿演示的程度。通过对演示数据和智能体自身策略的Q值分布进行建模,并量化其不确定性,SPReD可以根据不确定性的大小,自适应地调整模仿的权重。当智能体对自身策略的估计越不确定时,就更多地依赖演示数据;反之,当智能体对自身策略的估计越确定时,就更少地依赖演示数据。

技术框架:SPReD框架主要包含以下几个模块:1) Q值分布建模:使用集成方法(例如,Q-ensemble)分别对演示数据和智能体自身策略的Q值进行建模,得到Q值分布。2) 不确定性量化:基于Q值分布,计算演示数据和智能体自身策略的不确定性。论文提出了两种不确定性量化方法:一种是基于概率的方法,估计演示数据优于智能体自身策略的可能性;另一种是基于优势函数的方法,利用统计显著性来缩放模仿的权重。3) 平滑策略正则化:根据量化的不确定性,对智能体的策略进行正则化,使得智能体在训练过程中能够平滑地从演示数据中学习。

关键创新:SPReD的关键创新在于其利用不确定性进行平滑策略正则化的思想。与传统的二元模仿策略不同,SPReD采用连续的、与不确定性成比例的正则化权重,从而降低了训练期间的梯度方差,提高了学习的稳定性。此外,SPReD框架可以灵活地结合不同的不确定性量化方法,具有较强的通用性。

关键设计:在Q值分布建模方面,论文采用了Q-ensemble方法,通过训练多个Q函数来估计Q值分布。在不确定性量化方面,论文提出了两种方法:概率方法和优势函数方法。概率方法通过计算演示数据Q值大于智能体自身策略Q值的概率来估计不确定性。优势函数方法则利用统计显著性来缩放模仿的权重。在策略正则化方面,论文采用了一种平滑的正则化方式,使得智能体在训练过程中能够平滑地从演示数据中学习。

📊 实验亮点

SPReD在八个机器人任务中进行了实验,结果表明,SPReD在复杂的任务中,性能优于现有方法高达14倍,同时保持了对演示质量和数量的鲁棒性。例如,在某项任务中,SPReD仅使用少量演示数据就达到了与现有方法使用大量演示数据相当的性能。

🎯 应用场景

SPReD框架可应用于各种需要利用少量演示数据进行强化学习的场景,例如机器人控制、自动驾驶、游戏AI等。该方法能够有效提高智能体的学习效率和性能,降低对大量高质量演示数据的依赖,具有重要的实际应用价值和潜力。

📄 摘要(原文)

In reinforcement learning with sparse rewards, demonstrations can accelerate learning, but determining when to imitate them remains challenging. We propose Smooth Policy Regularisation from Demonstrations (SPReD), a framework that addresses the fundamental question: when should an agent imitate a demonstration versus follow its own policy? SPReD uses ensemble methods to explicitly model Q-value distributions for both demonstration and policy actions, quantifying uncertainty for comparisons. We develop two complementary uncertainty-aware methods: a probabilistic approach estimating the likelihood of demonstration superiority, and an advantage-based approach scaling imitation by statistical significance. Unlike prevailing methods (e.g. Q-filter) that make binary imitation decisions, SPReD applies continuous, uncertainty-proportional regularisation weights, reducing gradient variance during training. Despite its computational simplicity, SPReD achieves remarkable gains in experiments across eight robotics tasks, outperforming existing approaches by up to a factor of 14 in complex tasks while maintaining robustness to demonstration quality and quantity. Our code is available at https://github.com/YujieZhu7/SPReD.