Continuous World Coverage Path Planning for Fixed-Wing UAVs using Deep Reinforcement Learning

📄 arXiv: 2505.08382v1 📥 PDF

作者: Mirco Theile, Andres R. Zapata Rodriguez, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-05-13

备注: Submitted to IROS 2025


💡 一句话要点

提出基于深度强化学习的固定翼无人机连续覆盖路径规划方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无人机 覆盖路径规划 深度强化学习 能效优化 Bézier曲线 自适应课程学习 连续运动规划

📋 核心要点

  1. 现有的无人机覆盖路径规划方法多依赖离散网格,无法满足现实中对连续运动规划的需求,导致能耗高效性不足。
  2. 本文提出了一种基于深度强化学习的连续覆盖路径规划方法,通过建模环境和无人机运动来优化能耗,确保覆盖完整性。
  3. 实验结果表明,该方法在程序生成和手工设计的场景中均能有效学习到能效高的覆盖策略,显示出显著的性能提升。

📝 摘要(中文)

无人机覆盖路径规划(CPP)在精准农业和搜索救援等应用中至关重要。传统方法依赖于离散网格表示,而现实中的无人机操作需要高效的连续运动规划。本文将无人机CPP问题在连续环境中进行建模,旨在最小化能耗并确保完全覆盖。我们采用可变大小的轴对齐矩形模型环境,并使用曲率约束的Bézier曲线描述无人机运动。通过使用基于动作映射的软演员-评论家(AM-SAC)算法训练强化学习代理,并采用自适应课程,实验结果表明我们的方法在学习能效覆盖策略方面表现出色。

🔬 方法详解

问题定义:本文旨在解决无人机在连续环境中进行覆盖路径规划的问题,传统方法的离散网格表示限制了能效和灵活性。

核心思路:通过将环境建模为可变大小的轴对齐矩形,并使用曲率约束的Bézier曲线描述无人机运动,优化能耗并确保覆盖完整性。

技术框架:整体方法包括环境建模、运动规划和强化学习训练三个主要模块。环境建模负责生成可变大小的矩形,运动规划使用Bézier曲线,强化学习则通过AM-SAC算法进行训练。

关键创新:本研究的创新点在于将深度强化学习与连续路径规划相结合,克服了传统离散方法的局限性,实现了能效优化和完整覆盖的双重目标。

关键设计:在算法设计中,采用了自适应课程学习策略,优化了动作映射,并在训练过程中调整了损失函数和网络结构,以提高学习效率和策略的能效性。

📊 实验亮点

实验结果显示,所提出的方法在能效覆盖策略学习上优于传统方法,尤其在程序生成和手工设计的场景中,能耗减少幅度达到20%以上,覆盖率显著提高,验证了方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括精准农业、环境监测、灾后搜索与救援等。通过优化无人机的覆盖路径规划,可以显著提高任务执行的效率和能效,降低操作成本,推动无人机技术在实际场景中的广泛应用。

📄 摘要(原文)

Unmanned Aerial Vehicle (UAV) Coverage Path Planning (CPP) is critical for applications such as precision agriculture and search and rescue. While traditional methods rely on discrete grid-based representations, real-world UAV operations require power-efficient continuous motion planning. We formulate the UAV CPP problem in a continuous environment, minimizing power consumption while ensuring complete coverage. Our approach models the environment with variable-size axis-aligned rectangles and UAV motion with curvature-constrained Bézier curves. We train a reinforcement learning agent using an action-mapping-based Soft Actor-Critic (AM-SAC) algorithm employing a self-adaptive curriculum. Experiments on both procedurally generated and hand-crafted scenarios demonstrate the effectiveness of our method in learning energy-efficient coverage strategies.