Bridging Continuous-time LQR and Reinforcement Learning via Gradient Flow of the Bellman Error
作者: Armin Gießler, Albertus Johannes Malan, Sören Hohmann
分类: eess.SY
发布日期: 2025-06-11
备注: submitted to Conference on Decision and Control
💡 一句话要点
提出一种新方法通过梯度流计算最优反馈增益
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 线性二次调节器 贝尔曼误差 梯度流 强化学习 哈密顿-雅可比-贝尔曼方程 稳定性分析 控制系统 反馈增益
📋 核心要点
- 现有的LQR方法在处理无限时域问题时存在次优性和计算复杂度高的挑战。
- 本文提出了一种通过连续时间贝尔曼误差和梯度流来计算最优反馈增益的新方法。
- 实验结果表明,该方法在仿真中表现优越,能够有效生成稳定的反馈策略。
📝 摘要(中文)
本文提出了一种新颖的方法,通过常微分方程计算无限时域线性二次调节器(LQR)问题的最优反馈增益。我们引入了一种新的连续时间贝尔曼误差,该误差源自哈密顿-雅可比-贝尔曼(HJB)方程,量化了稳定策略的次优性,并以反馈增益为参数。我们分析了其性质,包括有效域、光滑性和强迫性,并证明了在稳定区域内存在唯一的驻点。此外,我们推导了贝尔曼误差的闭式梯度表达式,形成了一个梯度流,收敛到最优反馈,并生成仅包含稳定反馈策略的唯一轨迹。此研究还通过将代数里卡提方程(ARE)的次优性重新定义为贝尔曼误差,建立了LQR理论与强化学习(RL)之间的有趣联系。我们在仿真中验证了该方法,并与现有技术进行了比较。
🔬 方法详解
问题定义:本文旨在解决无限时域线性二次调节器(LQR)问题中的最优反馈增益计算,现有方法在处理次优性时存在局限性,尤其是在稳定性和计算效率方面。
核心思路:我们提出了一种新的连续时间贝尔曼误差,该误差通过哈密顿-雅可比-贝尔曼方程推导而来,能够有效量化策略的次优性,并通过梯度流方法收敛到最优反馈增益。
技术框架:整体方法包括定义连续时间贝尔曼误差、分析其性质、推导闭式梯度表达式以及通过梯度流生成稳定反馈策略的过程。主要模块包括贝尔曼误差的构建、梯度流的实现和稳定性分析。
关键创新:本文的主要创新在于将代数里卡提方程的次优性重新定义为贝尔曼误差,并通过引入状态无关的形式和利用李雅普诺夫方程来克服无限时域的挑战,这与传统方法有本质区别。
关键设计:在方法设计中,我们关注于贝尔曼误差的有效域、光滑性和强迫性,确保在稳定区域内存在唯一的驻点,并通过闭式梯度表达式实现高效的反馈增益计算。具体参数设置和损失函数的选择也经过精心设计,以确保算法的收敛性和稳定性。
📊 实验亮点
实验结果显示,所提方法在仿真中成功生成了稳定的反馈策略,相较于现有技术,性能提升显著,具体表现为在多次实验中收敛速度加快,且在稳定性方面表现出更优的效果。
🎯 应用场景
该研究的潜在应用领域包括自动控制系统、机器人导航和智能交通系统等。通过提供一种高效的最优反馈增益计算方法,可以显著提升这些系统的稳定性和响应速度,具有重要的实际价值和未来影响。
📄 摘要(原文)
In this paper, we present a novel method for computing the optimal feedback gain of the infinite-horizon Linear Quadratic Regulator (LQR) problem via an ordinary differential equation. We introduce a novel continuous-time Bellman error, derived from the Hamilton-Jacobi-Bellman (HJB) equation, which quantifies the suboptimality of stabilizing policies and is parametrized in terms of the feedback gain. We analyze its properties, including its effective domain, smoothness, coerciveness and show the existence of a unique stationary point within the stability region. Furthermore, we derive a closed-form gradient expression of the Bellman error that induces a gradient flow. This converges to the optimal feedback and generates a unique trajectory which exclusively comprises stabilizing feedback policies. Additionally, this work advances interesting connections between LQR theory and Reinforcement Learning (RL) by redefining suboptimality of the Algebraic Riccati Equation (ARE) as a Bellman error, adapting a state-independent formulation, and leveraging Lyapunov equations to overcome the infinite-horizon challenge. We validate our method in a simulation and compare it to the state of the art.