Decentralized Real-Time Planning for Multi-UAV Cooperative Manipulation via Imitation Learning
作者: Shantnav Agarwal, Javier Alonso-Mora, Sihao Sun
分类: cs.RO
发布日期: 2025-10-20
备注: Accepted by IEEE MRS 2025
💡 一句话要点
提出基于模仿学习的无人机协同操作分散式实时规划方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多无人机协同 模仿学习 分散式规划 物理信息神经网络 运动规划
📋 核心要点
- 现有方法在多无人机协同操作中依赖集中控制或可靠通信,限制了其在复杂环境中的应用。
- 该论文提出一种基于模仿学习的分散式规划方法,无需智能体间通信,提升了系统的鲁棒性。
- 实验结果表明,该方法在仿真和真实环境中均表现良好,性能可与集中式方法媲美,且训练效率高。
📝 摘要(中文)
现有的多无人机协同运输悬挂负载方法通常依赖于集中式控制架构或可靠的智能体间通信。本文提出了一种基于机器学习的新型分散式运动规划方法,该方法在部分可观测性和无智能体间通信的情况下有效运行。我们的方法利用模仿学习训练每个无人机的分散式学生策略,通过模仿具有全局观测权限的集中式运动规划器。学生策略使用物理信息神经网络生成平滑轨迹,保证运动中的导数关系。在训练过程中,学生策略利用教师策略生成的完整轨迹,从而提高样本效率。此外,每个学生策略都可以在标准笔记本电脑上在两小时内完成训练。我们在仿真和真实环境中验证了我们的方法,使其能够跟随灵活的参考轨迹,展示出与集中式方法相当的性能。
🔬 方法详解
问题定义:多无人机协同操作悬挂负载,需要精确的运动规划。现有方法主要依赖集中式控制,计算复杂度高,且对通信要求高,在通信受限或环境复杂的场景下难以应用。分散式控制虽然可以降低计算负担,但难以保证全局协同性能。
核心思路:利用模仿学习,训练每个无人机的分散式策略,使其能够模仿集中式规划器的行为。集中式规划器拥有全局信息,可以生成高质量的轨迹,但无法直接应用于分散式场景。通过模仿学习,将集中式规划器的知识迁移到分散式策略中,实现高效的协同操作。
技术框架:整体框架包含两个阶段:教师策略生成和学生策略训练。首先,使用集中式运动规划器(教师策略)生成多无人机协同操作的轨迹数据。然后,利用这些数据训练每个无人机的分散式策略(学生策略)。学生策略是一个物理信息神经网络,能够生成满足运动学约束的平滑轨迹。在推理阶段,每个无人机独立运行其学生策略,无需智能体间通信。
关键创新:该方法的核心创新在于利用模仿学习,将集中式规划器的全局知识迁移到分散式策略中,从而在无需智能体间通信的情况下实现高效的协同操作。此外,使用物理信息神经网络作为学生策略,能够保证生成轨迹的平滑性和物理可行性。
关键设计:集中式规划器采用 kinodynamic 运动规划算法,考虑了无人机的动力学约束。学生策略采用物理信息神经网络,其损失函数包含两部分:轨迹模仿损失和物理约束损失。轨迹模仿损失用于衡量学生策略生成的轨迹与教师策略生成的轨迹之间的差异。物理约束损失用于保证生成轨迹满足无人机的运动学约束。训练过程中,使用教师策略生成的完整轨迹,提高了样本效率。
📊 实验亮点
该方法在仿真和真实环境中进行了验证,结果表明其性能可与集中式方法媲美。在跟随灵活参考轨迹的任务中,该方法能够实现精确的协同操作,且无需智能体间通信。此外,每个学生策略都可以在标准笔记本电脑上在两小时内完成训练,表明该方法具有较高的训练效率。
🎯 应用场景
该研究成果可应用于多种多无人机协同操作场景,例如:大型物体的搬运、桥梁检测、灾难救援等。在这些场景中,无人机需要在复杂环境中协同工作,且通信条件可能受限。该方法能够有效解决这些问题,提高无人机协同操作的效率和鲁棒性,具有重要的实际应用价值。
📄 摘要(原文)
Existing approaches for transporting and manipulating cable-suspended loads using multiple UAVs along reference trajectories typically rely on either centralized control architectures or reliable inter-agent communication. In this work, we propose a novel machine learning based method for decentralized kinodynamic planning that operates effectively under partial observability and without inter-agent communication. Our method leverages imitation learning to train a decentralized student policy for each UAV by imitating a centralized kinodynamic motion planner with access to privileged global observations. The student policy generates smooth trajectories using physics-informed neural networks that respect the derivative relationships in motion. During training, the student policies utilize the full trajectory generated by the teacher policy, leading to improved sample efficiency. Moreover, each student policy can be trained in under two hours on a standard laptop. We validate our method in both simulation and real-world environments to follow an agile reference trajectory, demonstrating performance comparable to that of centralized approaches.