Safe Exploration in Reinforcement Learning: Training Backup Control Barrier Functions with Zero Training Time Safety Violations

📄 arXiv: 2312.07828v2 📥 PDF

作者: Pedram Rabiee, Amirsaeid Safari

分类: eess.SY

发布日期: 2023-12-13 (更新: 2024-12-09)

备注: Preprint submitted to L4DC 2025


💡 一句话要点

提出RLBUS算法,通过训练备份控制屏障函数实现强化学习中的安全探索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 安全探索 控制屏障函数 备份策略 无模型学习

📋 核心要点

  1. 传统备份控制屏障函数(BCBFs)在强化学习中保证安全探索时,由于备份控制器设计保守,导致控制前向不变集较小。
  2. RLBUS算法通过无模型强化学习训练额外的备份策略,扩大控制前向不变子集,从而允许在更大状态空间进行安全探索。
  3. 在倒立摆实验中,RLBUS扩展了不变集,实现了更广泛状态空间的安全探索,提升了性能且未发生安全违规。

📝 摘要(中文)

本文提出了一种名为强化学习备份盾(RLBUS)的算法,该算法通过结合备份控制屏障函数(BCBFs)来保证强化学习(RL)中的安全探索。RLBUS利用多个备份策略构建安全集的一个隐式控制前向不变子集,从而确保在存在输入约束的情况下安全性。传统的BCBFs由于备份控制器的设计,通常会导致保守的控制前向不变集。为了解决这个限制,RLBUS利用无模型的强化学习来训练一个额外的备份策略,从而扩大了已识别的控制前向不变子集。这种方法能够在训练过程中以零安全违规的方式探索更大的状态空间区域。在倒立摆示例中,RLBUS的有效性得到了证明,其中扩展的不变集允许在更广泛的状态空间上进行安全探索,从而在不影响安全性的前提下提高性能。

🔬 方法详解

问题定义:论文旨在解决强化学习中安全探索的问题,即如何在保证系统安全的前提下,尽可能高效地探索状态空间。现有方法,特别是基于备份控制屏障函数(BCBFs)的方法,通常由于备份控制器的保守设计,导致控制前向不变集过小,限制了探索范围。这种保守性降低了学习效率,可能无法找到最优策略。

核心思路:论文的核心思路是利用强化学习来训练一个额外的备份策略,该策略能够扩大控制前向不变子集,从而允许在更大的状态空间中进行安全探索。通过学习一个更优的备份策略,可以减少传统BCBFs的保守性,提高探索效率。

技术框架:RLBUS算法的整体框架包括以下几个主要部分:1) 多个备份策略,包括一个或多个预定义的备份策略和一个通过强化学习训练的备份策略;2) 控制屏障函数(CBF),用于定义安全集;3) 控制器,根据当前状态和备份策略,选择合适的控制输入,确保系统状态保持在安全集内。算法首先利用预定义的备份策略构建一个初始的控制前向不变集,然后通过强化学习训练额外的备份策略,扩大该不变集。

关键创新:RLBUS的关键创新在于利用强化学习来优化备份策略,从而克服了传统BCBFs的保守性。与现有方法相比,RLBUS能够在保证安全性的前提下,更有效地探索状态空间,提高学习效率。此外,RLBUS实现了零训练时间安全违规,这意味着在训练过程中不会出现任何不安全行为。

关键设计:RLBUS的关键设计包括:1) 强化学习算法的选择,论文采用了一种无模型的强化学习算法来训练备份策略;2) 奖励函数的设计,奖励函数需要平衡探索和安全,鼓励智能体探索更大的状态空间,同时惩罚任何不安全行为;3) 控制器设计,控制器需要根据当前状态和备份策略,选择合适的控制输入,确保系统状态保持在安全集内。具体参数设置和网络结构在论文中未详细说明,属于未知信息。

📊 实验亮点

论文在倒立摆实验中验证了RLBUS算法的有效性。实验结果表明,RLBUS能够扩展控制前向不变集,允许在更广泛的状态空间上进行安全探索。与传统的BCBFs方法相比,RLBUS在保证安全性的前提下,提高了学习效率,实现了更好的性能。具体性能数据和提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

RLBUS算法具有广泛的应用前景,例如自动驾驶、机器人控制、航空航天等领域。在这些领域中,安全是至关重要的,RLBUS能够保证系统在探索未知环境时的安全性,从而加速学习过程,提高系统性能。该算法还可以应用于高风险环境下的决策问题,例如核电站控制、医疗设备控制等,确保系统在任何情况下都能保持安全稳定运行。

📄 摘要(原文)

This paper introduces the reinforcement learning backup shield (RLBUS), an algorithm that guarantees safe exploration in reinforcement learning (RL) by incorporating backup control barrier functions (BCBFs). RLBUS constructs an implicit control forward invariant subset of the safe set using multiple backup policies, ensuring safety in the presence of input constraints. While traditional BCBFs often result in conservative control forward-invariant sets due to the design of backup controllers, RLBUS addresses this limitation by leveraging model-free RL to train an additional backup policy, which enlarges the identified control forward invariant subset of the safe set. This approach enables the exploration of larger regions in the state space with zero safety violations during training. The effectiveness of RLBUS is demonstrated on an inverted pendulum example, where the expanded invariant set allows for safe exploration over a broader state space, enhancing performance without compromising safety.