Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)

📄 arXiv: 2508.16474v1 📥 PDF

作者: Austin Braniff, Yuhe Tian

分类: eess.SY, cs.LG, math.OC

发布日期: 2025-08-22


💡 一句话要点

提出基于Y-wise仿射神经网络的强化学习控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 仿射神经网络 控制算法 非线性系统 安全性 多参数控制 在线学习

📋 核心要点

  1. 现有强化学习方法在复杂非线性系统控制中面临收敛速度慢和安全性不足的挑战。
  2. 论文提出通过Y-wise仿射神经网络初始化强化学习网络,以结合线性最优控制的优势,提升学习效率和安全性。
  3. 实验结果显示,YANN-RL在夹持摆和安全关键化学反应系统中显著优于现代深度确定性策略梯度算法,尤其在安全约束下表现突出。

📝 摘要(中文)

本研究提出了一种基于Y-wise仿射神经网络(YANNs)的新型强化学习(RL)算法。YANNs能够精确表示任意输入和输出维度的已知分段仿射函数,适用于多参数线性模型预测控制的显式解。通过将YANNs用于初始化RL的演员和评论家网络,YANN-RL控制算法能够以线性最优控制的信心开始。YANN-演员通过离线计算获得的多参数控制解进行初始化,而YANN-评论家则表示线性系统的状态-动作值函数和最优控制问题中的奖励函数。额外的网络层被注入以扩展YANNs以适应非线性表达,能够在线训练以直接与复杂非线性系统交互。实验结果表明,YANN-RL在考虑安全约束时显著优于现代RL算法,尤其是在夹持摆和安全关键化学反应系统的应用中。

🔬 方法详解

问题定义:本研究旨在解决传统强化学习在复杂非线性系统控制中的收敛速度慢和安全性不足的问题。现有方法往往依赖于深度学习,导致在安全关键应用中的性能不稳定。

核心思路:论文的核心思路是利用Y-wise仿射神经网络(YANNs)来初始化强化学习的演员和评论家网络,从而结合线性最优控制的优势,提供更快的收敛和更高的安全性。通过这种方式,YANN-RL算法能够在复杂环境中有效学习。

技术框架:整体架构包括YANN-演员和YANN-评论家两个主要模块。YANN-演员通过离线计算的多参数控制解进行初始化,而YANN-评论家则表示状态-动作值函数和奖励函数。额外的网络层用于扩展YANNs以适应非线性表达,支持在线训练。

关键创新:最重要的技术创新在于YANNs的引入,使得强化学习算法能够在初始阶段就具备线性最优控制的信心,从而加速学习过程并提高安全性。这与传统方法的随机初始化形成鲜明对比。

关键设计:在网络结构上,YANNs能够精确表示分段仿射函数,损失函数设计为最小化状态-动作值函数的误差。此外,网络层的扩展设计允许YANNs在与复杂非线性系统交互时进行在线学习,提升了算法的适应性。

📊 实验亮点

实验结果表明,YANN-RL在夹持摆和安全关键化学反应系统中的表现显著优于现代深度确定性策略梯度算法,尤其是在考虑安全约束时,提升幅度达到XX%。这一结果验证了YANN-RL在复杂非线性控制中的有效性和安全性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、智能制造等安全关键系统。通过结合线性最优控制的优势,YANN-RL算法能够在复杂环境中实现高效、安全的控制策略,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

This work presents a novel reinforcement learning (RL) algorithm based on Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural network which can exactly represent known piecewise affine functions of arbitrary input and output dimensions defined on any amount of polytopic subdomains. One representative application of YANNs is to reformulate explicit solutions of multi-parametric linear model predictive control. Built on this, we propose the use of YANNs to initialize RL actor and critic networks, which enables the resulting YANN-RL control algorithm to start with the confidence of linear optimal control. The YANN-actor is initialized by representing the multi-parametric control solutions obtained via offline computation using an approximated linear system model. The YANN-critic represents the explicit form of the state-action value function for the linear system and the reward function as the objective in an optimal control problem (OCP). Additional network layers are injected to extend YANNs for nonlinear expressions, which can be trained online by directly interacting with the true complex nonlinear system. In this way, both the policy and state-value functions exactly represent a linear OCP initially and are able to eventually learn the solution of a general nonlinear OCP. Continuous policy improvement is also implemented to provide heuristic confidence that the linear OCP solution serves as an effective lower bound to the performance of RL policy. The YANN-RL algorithm is demonstrated on a clipped pendulum and a safety-critical chemical-reactive system. Our results show that YANN-RL significantly outperforms the modern RL algorithm using deep deterministic policy gradient, especially when considering safety constraints.