MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation

📄 arXiv: 2509.21045v1 📥 PDF

作者: Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos

分类: cs.RO, cs.LG

发布日期: 2025-09-25

备注: Pre-print version submitted to IEEE IROS


💡 一句话要点

提出基于MPC的深度强化学习方法,用于抑制燃料晃动空间机器人控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 空间机器人 燃料晃动 模型预测控制 深度强化学习 卫星对接

📋 核心要点

  1. 燃料晃动是空间机器人对接中的难题,会产生难以预测的力,影响系统稳定性。
  2. 论文将MPC与PPO和SAC等RL算法结合,利用MPC的预测能力加速RL训练,提高控制鲁棒性。
  3. 实验表明,SAC-MPC在对接精度、成功率和控制力方面优于单独的RL和PPO-MPC方法。

📝 摘要(中文)

本文提出了一种集成了强化学习(RL)和模型预测控制(MPC)的框架,用于自主卫星对接,尤其针对部分填充燃料箱的情况。传统的对接控制面临微重力下燃料晃动带来的挑战,这种晃动会产生不可预测的力,影响稳定性。为了解决这个问题,我们将近端策略优化(PPO)和软演员-评论家(SAC)RL算法与MPC相结合,利用MPC的预测能力来加速RL训练并提高控制鲁棒性。通过SnT的Zero-G实验室的平面稳定实验和高保真数值模拟(6自由度对接,包含燃料晃动动力学)验证了该方法的有效性。仿真结果表明,SAC-MPC在对接精度、成功率和控制力方面均优于独立的RL和PPO-MPC方法。这项研究推进了燃料效率高且抗干扰的卫星对接技术,增强了在轨加油和维修任务的可行性。

🔬 方法详解

问题定义:论文旨在解决部分填充燃料箱的卫星在微重力环境下自主对接时,由于燃料晃动引起的控制难题。燃料晃动会产生难以预测的力和力矩,严重影响卫星的姿态稳定性和对接精度。传统的控制方法难以有效抑制燃料晃动带来的干扰,导致对接失败或需要消耗大量燃料。

核心思路:论文的核心思路是将模型预测控制(MPC)与深度强化学习(DRL)相结合。MPC能够利用系统动力学模型进行预测,从而提前规划控制动作,而DRL则可以通过与环境的交互学习最优策略。通过将两者结合,可以利用MPC的预测能力来加速DRL的训练过程,并提高控制器的鲁棒性。

技术框架:整体框架包含两个主要部分:MPC控制器和DRL策略网络。MPC控制器基于卫星的动力学模型和燃料晃动模型,预测未来一段时间内的系统状态,并优化控制输入。DRL策略网络则根据当前系统状态,输出MPC控制器的参考轨迹。DRL策略网络的训练过程由MPC控制器提供奖励信号,奖励信号的设计旨在鼓励卫星快速、准确地完成对接任务,并抑制燃料晃动。

关键创新:论文的关键创新在于将MPC的预测能力与DRL的学习能力相结合,提出了一种新型的控制框架。与传统的DRL方法相比,该方法能够更快地学习到最优策略,并具有更好的鲁棒性。此外,论文还针对燃料晃动问题,设计了特定的奖励函数,以鼓励控制器抑制燃料晃动。

关键设计:论文采用了两种DRL算法:近端策略优化(PPO)和软演员-评论家(SAC)。MPC控制器采用了线性时变MPC(LTV-MPC),其预测模型基于卫星的线性化动力学模型和燃料晃动模型。奖励函数的设计包括对接精度、对接速度、燃料消耗和燃料晃动抑制等多个方面。网络结构方面,使用了多层感知机(MLP)作为策略网络和价值网络。

📊 实验亮点

论文通过仿真实验验证了所提出方法的有效性。实验结果表明,SAC-MPC方法在对接精度、成功率和控制力方面均优于单独的RL和PPO-MPC方法。具体而言,SAC-MPC方法能够实现更高的对接成功率,并显著降低控制所需的燃料消耗。此外,该方法还能够有效抑制燃料晃动,提高系统的稳定性。

🎯 应用场景

该研究成果可应用于在轨服务、在轨加油、空间碎片清除等任务。通过提高卫星对接的自主性和鲁棒性,降低对地面控制的依赖,从而降低任务成本,提高任务效率。此外,该方法还可以推广到其他具有复杂动力学特性的空间机器人控制问题,例如空间机械臂操作等。

📄 摘要(原文)

This paper presents an integrated Reinforcement Learning (RL) and Model Predictive Control (MPC) framework for autonomous satellite docking with a partially filled fuel tank. Traditional docking control faces challenges due to fuel sloshing in microgravity, which induces unpredictable forces affecting stability. To address this, we integrate Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive capabilities to accelerate RL training and improve control robustness. The proposed approach is validated through Zero-G Lab of SnT experiments for planar stabilization and high-fidelity numerical simulations for 6-DOF docking with fuel sloshing dynamics. Simulation results demonstrate that SAC-MPC achieves superior docking accuracy, higher success rates, and lower control effort, outperforming standalone RL and PPO-MPC methods. This study advances fuel-efficient and disturbance-resilient satellite docking, enhancing the feasibility of on-orbit refueling and servicing missions.