Synthesis of Temporally-Robust Policies for Signal Temporal Logic Tasks using Reinforcement Learning

📄 arXiv: 2312.05764v2 📥 PDF

作者: Siqi Wang, Shaoyuan Li, Li Yin, Xiang Yin

分类: eess.SY

发布日期: 2023-12-10 (更新: 2024-03-23)

备注: Accepted to ICRA 2024

DOI: 10.1109/ICRA57147.2024.10610510


💡 一句话要点

提出基于强化学习的时序鲁棒信号时序逻辑任务策略综合方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 信号时序逻辑 时间鲁棒性 控制策略 Q-learning

📋 核心要点

  1. 现有方法在未知随机环境中,难以保证控制策略在满足信号时序逻辑(STL)规范的同时,具备足够的时间鲁棒性,即对时间不确定性的容忍度。
  2. 本文提出利用强化学习方法,通过优化时间鲁棒性概率和有界时间偏移内的最坏情况空间鲁棒性,来增强控制策略的时序鲁棒性。
  3. 通过案例研究验证了所提出方法的可行性,并推导了关于近似控制目标的理论界限,为算法的有效性提供了理论支撑。

📝 摘要(中文)

本文研究了在未知随机环境中设计满足信号时序逻辑(STL)描述的高级规范的控制策略问题。现有工作主要集中于优化系统的空间鲁棒性,而本文更进一步,将时间鲁棒性作为量化STL中时间不确定性容忍度的关键指标。为此,我们制定了两个相关的控制目标,以增强综合策略的时间鲁棒性。第一个目标是最大化给定阈值的时间鲁棒性概率。第二个目标是最大化有界时间偏移内的最坏情况空间鲁棒性值。我们使用强化学习来解决未知系统的这两个控制综合问题。具体来说,我们以一种能够应用标准Q学习算法的方式来近似这两个控制目标。同时,推导了关于近似的理论界限。我们通过案例研究来证明了该方法的可行性。

🔬 方法详解

问题定义:论文旨在解决在未知、随机环境中,如何设计满足信号时序逻辑(STL)规范,且具有高时间鲁棒性的控制策略的问题。现有方法主要关注空间鲁棒性,忽略了时间不确定性对策略性能的影响,导致策略在实际应用中容易失效。

核心思路:论文的核心思路是将时间鲁棒性纳入控制策略的设计目标中,通过强化学习方法,学习能够最大化时间鲁棒性相关指标的控制策略。具体而言,论文提出了两个优化目标:最大化给定阈值的时间鲁棒性概率,以及最大化有界时间偏移内的最坏情况空间鲁棒性值。

技术框架:整体框架包括以下几个主要步骤:1) 将STL规范转化为强化学习中的奖励函数,该奖励函数与时间鲁棒性相关;2) 使用Q-learning算法学习最优策略,该策略能够最大化累积奖励;3) 通过案例研究验证所学策略的有效性。框架的关键在于如何将时间鲁棒性有效地融入到奖励函数的设计中。

关键创新:论文的关键创新在于将时间鲁棒性显式地纳入到控制策略的设计目标中,并提出了两种量化时间鲁棒性的指标。此外,论文还推导了关于近似控制目标的理论界限,为算法的有效性提供了理论支撑。与现有方法相比,该方法能够更好地应对时间不确定性,提高控制策略的鲁棒性。

关键设计:论文使用Q-learning算法进行策略学习。为了应用Q-learning,论文需要近似计算时间鲁棒性相关的目标函数。具体而言,论文使用采样方法来估计时间鲁棒性概率,并使用动态规划方法来计算有界时间偏移内的最坏情况空间鲁棒性值。此外,论文还设计了合适的奖励函数,以引导Q-learning算法学习到满足STL规范且具有高时间鲁棒性的策略。

📊 实验亮点

论文通过案例研究验证了所提出方法的可行性。实验结果表明,与传统的只关注空间鲁棒性的方法相比,该方法能够显著提高控制策略的时间鲁棒性,并更好地满足STL规范。具体的性能数据和对比基线在论文中有详细描述(具体数值未知)。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能制造等领域,在这些领域中,系统需要在不确定环境中执行复杂的任务,并对时间约束有严格的要求。通过提高控制策略的时间鲁棒性,可以增强系统在实际应用中的可靠性和安全性,例如,在自动驾驶中,确保车辆在交通状况变化时仍能安全到达目的地。

📄 摘要(原文)

This paper investigates the problem of designing control policies that satisfy high-level specifications described by signal temporal logic (STL) in unknown, stochastic environments. While many existing works concentrate on optimizing the spatial robustness of a system, our work takes a step further by also considering temporal robustness as a critical metric to quantify the tolerance of time uncertainty in STL. To this end, we formulate two relevant control objectives to enhance the temporal robustness of the synthesized policies. The first objective is to maximize the probability of being temporally robust for a given threshold. The second objective is to maximize the worst-case spatial robustness value within a bounded time shift. We use reinforcement learning to solve both control synthesis problems for unknown systems. Specifically, we approximate both control objectives in a way that enables us to apply the standard Q-learning algorithm. Theoretical bounds in terms of the approximations are also derived. We present case studies to demonstrate the feasibility of our approach.