Fault Tolerant Control of a Quadcopter using Reinforcement Learning

📄 arXiv: 2509.07707v1 📥 PDF

作者: Muzaffar Habib, Adnan Maqsood, Adnan Fayyaz ud Din

分类: cs.RO, eess.SY

发布日期: 2025-09-09

备注: e-ISSN: 1946-3901, ISSN: 1946-3855, https://www.sae.org/publications/technical-papers/content/01-18-01-0006/

期刊: SAE International Journal of Aerospace-V134-1EJ, 2025

DOI: 10.4271/01-18-01-0006


💡 一句话要点

提出基于强化学习的四旋翼容错控制框架,提升单桨失效下的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四旋翼 容错控制 强化学习 动态规划 深度确定性策略梯度 无人机 故障诊断 鲁棒控制

📋 核心要点

  1. 现有四旋翼控制方法在单桨失效等突发情况下鲁棒性不足,难以保证飞行安全和有效载荷。
  2. 采用动态规划(DP)和深度确定性策略梯度(DDPG)两种强化学习方法,提升四旋翼在单桨失效后的容错控制能力。
  3. 通过MATLAB仿真验证,改进的DP和DDPG算法能够有效应对单桨失效,并在不同初始条件下保持期望高度。

📝 摘要(中文)

本研究提出了一种基于强化学习(RL)的控制框架,旨在提高四旋翼的安全性和鲁棒性,特别关注飞行中单桨失效的容错能力。针对四旋翼保持期望高度以保障硬件和有效载荷安全的关键需求,本研究探索了两种RL方法:动态规划(DP)和深度确定性策略梯度(DDPG),以克服四旋翼旋翼失效带来的挑战。DP是一种基于模型的方法,尽管计算量大,但具有收敛保证;而DDPG是一种无模型技术,计算速度快,但对解的持续时间有限制。研究的挑战在于在高维度和动作空间上训练RL算法。通过对现有DP和DDPG算法的修改,控制器不仅能够处理大型连续状态和动作空间,而且能够在飞行中螺旋桨失效后达到期望状态。为了验证所提出的控制框架的鲁棒性,在MATLAB环境中进行了广泛的仿真,涵盖了各种初始条件,突出了其在任务关键型四旋翼应用中的可行性。对两种RL算法及其在故障航空系统中的应用潜力进行了比较分析。

🔬 方法详解

问题定义:论文旨在解决四旋翼飞行器在单旋翼失效情况下的容错控制问题。现有控制方法在面对此类突发故障时,往往难以维持飞行器的稳定性和期望高度,从而可能导致硬件损坏或任务失败。传统方法通常依赖精确的系统模型,而旋翼失效后的模型难以准确获取,因此需要一种能够自适应学习并进行有效控制的方法。

核心思路:论文的核心思路是利用强化学习(RL)算法,使四旋翼控制器能够通过与环境的交互学习,在单旋翼失效后自动调整控制策略,从而恢复并保持期望的飞行状态。选择强化学习是因为其具有无需精确模型、能够处理复杂非线性系统的优点。

技术框架:整体框架包括以下几个主要部分:1) 四旋翼动力学建模,用于仿真环境的构建;2) 强化学习算法的选择与改进,包括动态规划(DP)和深度确定性策略梯度(DDPG);3) 奖励函数的设计,用于引导RL算法学习期望的控制策略;4) 仿真环境的搭建与训练,以及性能评估。DP作为一种基于模型的方法,用于提供收敛保证,而DDPG作为一种无模型方法,用于加速计算。

关键创新:论文的关键创新在于针对四旋翼单旋翼失效场景,对传统的DP和DDPG算法进行了改进,使其能够适应高维度连续状态和动作空间。此外,论文还设计了合适的奖励函数,引导智能体学习在故障发生后快速恢复到期望状态的控制策略。

关键设计:论文中,奖励函数的设计至关重要,它直接影响着RL算法的学习效果。奖励函数通常包含多个部分,例如与期望高度的偏差、控制输入的惩罚项等。此外,对于DDPG算法,网络结构的选择和超参数的调整也需要仔细考虑,以保证算法的收敛性和性能。

📊 实验亮点

通过MATLAB仿真实验,验证了所提出的基于DP和DDPG的容错控制框架的有效性。实验结果表明,改进后的DP和DDPG算法能够在单旋翼失效后,快速恢复四旋翼的期望高度,并在不同初始条件下保持稳定飞行。两种算法各有优劣,DP算法具有收敛保证,但计算量较大;DDPG算法计算速度快,但对超参数敏感。具体性能数据未知。

🎯 应用场景

该研究成果可应用于无人机物流、巡检、搜救等领域,尤其是在需要高可靠性和安全性的任务中。通过提高四旋翼飞行器在突发故障下的容错能力,可以有效降低事故风险,保障任务顺利完成,并扩展四旋翼的应用范围。未来,该技术有望推广到其他类型的多旋翼飞行器和机器人系统。

📄 摘要(原文)

This study presents a novel reinforcement learning (RL)-based control framework aimed at enhancing the safety and robustness of the quadcopter, with a specific focus on resilience to in-flight one propeller failure. Addressing the critical need of a robust control strategy for maintaining a desired altitude for the quadcopter to safe the hardware and the payload in physical applications. The proposed framework investigates two RL methodologies Dynamic Programming (DP) and Deep Deterministic Policy Gradient (DDPG), to overcome the challenges posed by the rotor failure mechanism of the quadcopter. DP, a model-based approach, is leveraged for its convergence guarantees, despite high computational demands, whereas DDPG, a model-free technique, facilitates rapid computation but with constraints on solution duration. The research challenge arises from training RL algorithms on large dimensions and action domains. With modifications to the existing DP and DDPG algorithms, the controllers were trained not only to cater for large continuous state and action domain and also achieve a desired state after an inflight propeller failure. To verify the robustness of the proposed control framework, extensive simulations were conducted in a MATLAB environment across various initial conditions and underscoring its viability for mission-critical quadcopter applications. A comparative analysis was performed between both RL algorithms and their potential for applications in faulty aerial systems.