Autonomous Planning In-space Assembly Reinforcement-learning free-flYer (APIARY) International Space Station Astrobee Testing
作者: Samantha Chapin, Kenneth Stewart, Roxana Leontie, Carl Glen Henshaw
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-12-03
备注: iSpaRo 2025, Best Paper Award in Orbital Robotics
💡 一句话要点
APIARY实验:基于强化学习的国际空间站Astrobee机器人自主装配
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 空间机器人 自主控制 Astrobee 国际空间站
📋 核心要点
- 现有空间机器人的控制策略开发周期长,难以快速适应任务变化和环境扰动。
- APIARY实验采用强化学习方法,训练机器人自主控制策略,无需人工设计复杂规则。
- 通过在国际空间站的Astrobee机器人上进行在轨验证,证明了该方法的可行性和潜力。
📝 摘要(中文)
美国海军研究实验室(NRL)的自主规划空间组装强化学习自由飞行器(APIARY)实验,率先在零重力(zero-G)空间环境中利用强化学习(RL)控制自由飞行机器人。2025年5月27日,APIARY团队首次在国际空间站(ISS)上使用NASA Astrobee机器人,实现了自由飞行器的强化学习控制。该团队在NVIDIA Isaac Lab仿真环境中,使用Actor-Critic近端策略优化(PPO)网络训练了一个鲁棒的6自由度(DOF)控制策略,并通过随机化目标姿态和质量分布来增强鲁棒性。本文详细介绍了该实验的仿真测试、地面测试和飞行验证。这次在轨演示验证了强化学习在提高机器人自主性方面的变革潜力,能够快速开发和部署(几分钟到几小时)定制行为,以满足空间探索、物流和实时任务需求。
🔬 方法详解
问题定义:论文旨在解决空间机器人在零重力环境下自主运动和控制的问题。现有方法通常依赖于人工设计的控制策略,这些策略开发周期长,难以适应任务变化和环境扰动,并且需要精确的系统建模。在空间站等复杂环境中,精确建模非常困难,导致传统控制方法的鲁棒性较差。
核心思路:论文的核心思路是利用强化学习(RL)训练一个能够自主控制机器人的策略。通过在仿真环境中进行大量的训练,机器人可以学习到如何在不同的目标姿态和质量分布下,有效地利用自身的推进器进行运动和姿态调整。这种方法无需人工设计复杂的控制规则,并且具有较强的鲁棒性。
技术框架:APIARY实验的技术框架主要包括以下几个部分:首先,在NVIDIA Isaac Lab仿真环境中搭建Astrobee机器人的仿真模型,并设置不同的目标姿态和质量分布。然后,使用Actor-Critic近端策略优化(PPO)算法训练一个6自由度的控制策略。训练过程中,通过随机化环境参数来提高策略的泛化能力。最后,将训练好的策略部署到国际空间站的Astrobee机器人上进行在轨验证。
关键创新:该论文的关键创新在于首次在国际空间站上实现了基于强化学习的自由飞行机器人自主控制。与传统的控制方法相比,该方法无需人工设计复杂的控制规则,并且具有较强的鲁棒性和适应性。此外,该论文还验证了在仿真环境中训练的策略可以直接部署到真实机器人上,从而大大缩短了开发周期。
关键设计:在强化学习训练过程中,使用了Actor-Critic PPO算法,该算法能够有效地平衡探索和利用,从而提高训练效率。为了提高策略的鲁棒性,在仿真环境中随机化了目标姿态和质量分布。此外,还设计了一个合适的奖励函数,鼓励机器人快速准确地到达目标姿态。网络结构方面,采用了多层感知机(MLP)作为Actor和Critic网络的结构。
📊 实验亮点
APIARY实验在国际空间站成功进行了在轨验证,首次实现了基于强化学习的自由飞行机器人自主控制。实验结果表明,通过在仿真环境中训练的策略可以直接部署到真实机器人上,并且能够有效地完成任务。该实验验证了强化学习在空间机器人控制领域的巨大潜力。
🎯 应用场景
该研究成果可应用于空间站内部的自主巡检、物资搬运、设备维护等任务,也可扩展到深空探测、卫星维护等领域。通过强化学习训练的自主控制策略,能够使空间机器人更加智能、灵活,从而提高空间任务的效率和安全性,降低对地面控制的依赖。
📄 摘要(原文)
The US Naval Research Laboratory's (NRL's) Autonomous Planning In-space Assembly Reinforcement-learning free-flYer (APIARY) experiment pioneers the use of reinforcement learning (RL) for control of free-flying robots in the zero-gravity (zero-G) environment of space. On Tuesday, May 27th 2025 the APIARY team conducted the first ever, to our knowledge, RL control of a free-flyer in space using the NASA Astrobee robot on-board the International Space Station (ISS). A robust 6-degrees of freedom (DOF) control policy was trained using an actor-critic Proximal Policy Optimization (PPO) network within the NVIDIA Isaac Lab simulation environment, randomizing over goal poses and mass distributions to enhance robustness. This paper details the simulation testing, ground testing, and flight validation of this experiment. This on-orbit demonstration validates the transformative potential of RL for improving robotic autonomy, enabling rapid development and deployment (in minutes to hours) of tailored behaviors for space exploration, logistics, and real-time mission needs.