CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

📄 arXiv: 2510.14959v2 📥 PDF

作者: Lizhi Yang, Blake Werner, Massimiliano de Sa, Aaron D. Ames

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2025-10-16 (更新: 2025-10-19)

备注: 8 pages


💡 一句话要点

提出CBF-RL框架,通过控制屏障函数在训练中安全过滤强化学习策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 控制屏障函数 安全约束 机器人控制 安全滤波

📋 核心要点

  1. 现有强化学习方法在追求高性能时忽略安全性,导致实际部署中存在潜在风险,需要额外的安全机制。
  2. CBF-RL框架通过在训练过程中引入控制屏障函数,对强化学习策略进行安全过滤,从而学习到内含安全约束的策略。
  3. 实验表明,CBF-RL在导航和人形机器人任务中,能够实现更安全的探索、更快的收敛,并在不确定性下表现出更强的鲁棒性。

📝 摘要(中文)

强化学习(RL)虽然强大且具有表现力,但常常以牺牲安全性为代价来优先考虑性能。然而,安全违规可能导致现实部署中的灾难性后果。控制屏障函数(CBF)提供了一种强制执行动态安全性的原则性方法,传统上通过安全滤波器在线部署。虽然结果是安全的行为,但RL策略不了解CBF这一事实可能导致保守的行为。本文提出了CBF-RL,一个通过在训练中强制执行CBF来生成具有RL的安全行为的框架。CBF-RL具有两个关键属性:(1)最小程度地修改标称RL策略,以通过CBF项编码安全约束,(2)在训练中对策略rollout进行安全过滤。从理论上讲,我们证明了连续时间安全滤波器可以通过离散时间rollout上的闭式表达式进行部署。在实践中,我们证明了CBF-RL将安全约束内化到学习的策略中——既强制执行更安全的动作,又偏向于更安全的回报——从而无需在线安全滤波器即可实现安全部署。我们通过在导航任务和Unitree G1人形机器人上的消融研究验证了我们的框架,其中CBF-RL实现了更安全的探索、更快的收敛以及在不确定性下的稳健性能,使人形机器人能够在没有运行时安全滤波器的情况下安全地避开障碍物并安全地爬楼梯。

🔬 方法详解

问题定义:强化学习在实际应用中,尤其是在机器人控制等领域,安全性至关重要。传统的强化学习算法往往只关注奖励最大化,而忽略了安全约束,可能导致机器人做出危险动作。现有方法通常采用在线安全滤波,但这种方式会限制策略的探索,导致保守行为,且RL策略无法学习到内在的安全意识。

核心思路:CBF-RL的核心思路是在强化学习的训练过程中,利用控制屏障函数(CBF)来引导策略的学习,使其在满足安全约束的前提下,尽可能地优化性能。通过在训练时就将安全约束融入策略,可以避免在线安全滤波带来的保守性问题,并使策略具备内在的安全意识。

技术框架:CBF-RL框架主要包含两个关键部分:一是基于CBF的安全约束项,用于在训练过程中对策略进行约束;二是对策略rollout进行安全过滤,确保训练数据的安全性。具体流程如下:首先,使用一个标称的强化学习算法(如PPO)生成策略;然后,利用CBF计算安全约束项,并将其加入到强化学习的损失函数中;同时,对策略生成的rollout进行安全过滤,去除不安全的行为;最后,利用修正后的数据更新策略。

关键创新:CBF-RL的关键创新在于将控制屏障函数融入到强化学习的训练过程中,从而使策略能够学习到内在的安全约束。与传统的在线安全滤波方法相比,CBF-RL避免了保守性问题,并提高了策略的探索能力。此外,论文还证明了连续时间安全滤波器可以通过离散时间rollout上的闭式表达式进行部署,为实际应用提供了理论基础。

关键设计:CBF-RL的关键设计包括:(1) CBF的选择:需要根据具体的任务和安全约束选择合适的CBF;(2) 安全约束项的权重:需要调整安全约束项在损失函数中的权重,以平衡安全性和性能;(3) 安全过滤的阈值:需要设置合适的阈值来判断行为是否安全;(4) 策略网络结构:可以使用各种常见的强化学习网络结构,如MLP或RNN。

📊 实验亮点

实验结果表明,CBF-RL在导航任务和Unitree G1人形机器人任务中均取得了显著的性能提升。在导航任务中,CBF-RL能够更快地收敛到安全策略,并避免碰撞。在人形机器人任务中,CBF-RL使机器人能够在没有运行时安全滤波器的情况下安全地避开障碍物并安全地爬楼梯,证明了其在不确定性下的鲁棒性。

🎯 应用场景

CBF-RL框架可广泛应用于机器人控制、自动驾驶、无人机等对安全性要求较高的领域。例如,可以用于训练人形机器人安全地行走、避障和爬楼梯,或者训练自动驾驶汽车安全地行驶在复杂环境中。该研究有助于提高智能系统的安全性和可靠性,促进其在现实世界中的应用。

📄 摘要(原文)

Reinforcement learning (RL), while powerful and expressive, can often prioritize performance at the expense of safety. Yet safety violations can lead to catastrophic outcomes in real-world deployments. Control Barrier Functions (CBFs) offer a principled method to enforce dynamic safety -- traditionally deployed online via safety filters. While the result is safe behavior, the fact that the RL policy does not have knowledge of the CBF can lead to conservative behaviors. This paper proposes CBF-RL, a framework for generating safe behaviors with RL by enforcing CBFs in training. CBF-RL has two key attributes: (1) minimally modifying a nominal RL policy to encode safety constraints via a CBF term, (2) and safety filtering of the policy rollouts in training. Theoretically, we prove that continuous-time safety filters can be deployed via closed-form expressions on discrete-time roll-outs. Practically, we demonstrate that CBF-RL internalizes the safety constraints in the learned policy -- both enforcing safer actions and biasing towards safer rewards -- enabling safe deployment without the need for an online safety filter. We validate our framework through ablation studies on navigation tasks and on the Unitree G1 humanoid robot, where CBF-RL enables safer exploration, faster convergence, and robust performance under uncertainty, enabling the humanoid robot to avoid obstacles and climb stairs safely in real-world settings without a runtime safety filter.