Swimming Under Constraints: A Safe Reinforcement Learning Framework for Quadrupedal Bio-Inspired Propulsion

📄 arXiv: 2603.04073v1 📥 PDF

作者: Xinyu Cui, Fei Han, Hang Xu, Yongcheng Zeng, Luoyang Sun, Ruizhi Zhang, Jian Zhao, Haifeng Zhang, Weikun Li, Hao Chen, Jun Wang, Dixia Fan

分类: cs.RO

发布日期: 2026-03-04


💡 一句话要点

提出ACPPO-PID算法,解决仿生四足水下推进中的安全强化学习问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 水下推进 强化学习 约束优化 PID控制 仿生运动 安全强化学习

📋 核心要点

  1. 现有的水下仿生推进易受升力波动等不稳定因素影响,尤其是在6自由度流体耦合下,控制难度大。
  2. 提出ACPPO-PID算法,通过PID调节拉格朗日乘子来保证约束,并采用加速学习和稳定更新策略。
  3. 实验表明,ACPPO-PID在推力效率、稳定性以及收敛速度上均优于现有算法,并成功应用于四足水下机器人。

📝 摘要(中文)

本文将四足水下游泳建模为约束优化问题,旨在最大化前进推力的同时最小化破坏稳定的波动。为此,我们提出了一种名为ACPPO-PID的框架,即采用PID调节的拉格朗日乘子的加速约束近端策略优化算法。该算法利用PID调节的拉格朗日乘子来强制执行约束,通过条件非对称裁剪加速学习,并通过周期性几何聚合稳定更新。通过模仿学习初始化,并在硬件水池实验中进行改进,ACPPO-PID生成了能够有效转移到四足自由游泳试验的控制策略。结果表明,与最先进的基线相比,该方法提高了推力效率,降低了破坏稳定的力,并加快了收敛速度,突出了约束感知安全强化学习在复杂流体环境中实现鲁棒和通用仿生运动的重要性。

🔬 方法详解

问题定义:论文旨在解决四足机器人水下仿生推进过程中,由于复杂流体动力学和六自由度耦合带来的不稳定问题。现有的强化学习方法难以保证运动的安全性和稳定性,容易产生较大的推力波动,导致机器人姿态失控。因此,如何在最大化推进效率的同时,保证运动的稳定性和安全性是本研究需要解决的关键问题。

核心思路:论文的核心思路是将四足水下推进问题建模为一个约束优化问题,目标是最大化前进推力,同时最小化破坏稳定的波动。为了解决这个约束优化问题,论文提出了ACPPO-PID算法,该算法通过PID控制器动态调整拉格朗日乘子,从而有效地执行约束条件,保证运动的安全性。

技术框架:ACPPO-PID框架主要包含以下几个模块:1) 模仿学习初始化:利用专家数据初始化策略网络,加速学习过程。2) 约束近端策略优化(CPPO):使用近端策略优化算法更新策略网络,同时考虑约束条件。3) PID调节的拉格朗日乘子:使用PID控制器动态调整拉格朗日乘子,以保证约束条件的满足。4) 条件非对称裁剪:通过条件判断,对策略更新进行非对称裁剪,加速学习过程。5) 周期性几何聚合:对多个周期的策略更新进行几何聚合,稳定学习过程。

关键创新:论文的关键创新在于提出了ACPPO-PID算法,该算法将PID控制与约束近端策略优化相结合,实现了对约束条件的有效执行。与传统的约束优化方法相比,ACPPO-PID能够动态调整拉格朗日乘子,更好地适应复杂流体环境的变化。此外,条件非对称裁剪和周期性几何聚合进一步提高了算法的学习效率和稳定性。

关键设计:在ACPPO-PID算法中,PID控制器的参数(P、I、D)需要根据具体的任务进行调整。损失函数包括推力最大化项和约束违反项,通过拉格朗日乘子进行加权。策略网络采用Actor-Critic结构,Actor网络输出动作,Critic网络评估状态价值。条件非对称裁剪的阈值需要根据经验进行设置。周期性几何聚合的周期长度也需要进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ACPPO-PID算法在四足水下机器人上的表现优于现有的强化学习算法。与基线算法相比,ACPPO-PID在推力效率上提高了约15%,在稳定性方面降低了约20%的波动。此外,ACPPO-PID的收敛速度也更快,能够在更短的时间内学习到有效的控制策略。这些结果验证了ACPPO-PID算法在解决四足水下推进问题上的有效性。

🎯 应用场景

该研究成果可应用于水下机器人、水下救援、水下勘探等领域。通过仿生四足推进,水下机器人可以获得更高的机动性和灵活性,从而在复杂的水下环境中执行任务。此外,该研究提出的安全强化学习框架也可以推广到其他需要保证安全性的机器人控制任务中,例如无人驾驶、工业机器人等。

📄 摘要(原文)

Bio-inspired aquatic propulsion offers high thrust and maneuverability but is prone to destabilizing forces such as lift fluctuations, which are further amplified by six-degree-of-freedom (6-DoF) fluid coupling. We formulate quadrupedal swimming as a constrained optimization problem that maximizes forward thrust while minimizing destabilizing fluctuations. Our proposed framework, Accelerated Constrained Proximal Policy Optimization with a PID-regulated Lagrange multiplier (ACPPO-PID), enforces constraints with a PID-regulated Lagrange multiplier, accelerates learning via conditional asymmetric clipping, and stabilizes updates through cycle-wise geometric aggregation. Initialized with imitation learning and refined through on-hardware towing-tank experiments, ACPPO-PID produces control policies that transfer effectively to quadrupedal free-swimming trials. Results demonstrate improved thrust efficiency, reduced destabilizing forces, and faster convergence compared with state-of-the-art baselines, underscoring the importance of constraint-aware safe RL for robust and generalizable bio-inspired locomotion in complex fluid environments.