ContactRL: Safe Reinforcement Learning based Motion Planning for Contact based Human Robot Collaboration

📄 arXiv: 2512.03707v1 📥 PDF

作者: Sundas Rafat Mulkana, Ronyu Yu, Tanaya Guha, Emma Li

分类: cs.RO

发布日期: 2025-12-03

备注: 8 pages, 7 figures


💡 一句话要点

ContactRL:基于强化学习的安全运动规划,用于人机协作中的接触任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人机协作 强化学习 安全运动规划 力反馈控制 控制障碍函数

📋 核心要点

  1. 现有的人机协作方法难以在保证安全的同时实现高效的接触任务,尤其是在需要有意物理接触的场景下。
  2. ContactRL通过将力反馈融入强化学习的奖励函数,使机器人能够学习在保证安全接触的前提下完成任务的自适应运动策略。
  3. 实验结果表明,ContactRL在仿真和真实环境中均表现出良好的安全性和任务成功率,优于现有方法。

📝 摘要(中文)

本文提出ContactRL,一个基于强化学习(RL)的框架,通过力反馈将接触安全性直接融入奖励函数,从而实现安全的人机协作。这使得机器人能够学习自适应的运动轨迹,在保持任务效率的同时,最小化人机接触力。在仿真中,ContactRL实现了0.2%的低安全违规率和87.7%的高任务成功率,优于最先进的约束强化学习基线。为了保证部署安全性,本文使用基于动能的控制障碍函数(eCBF)盾牌来增强学习到的策略。在UR3e机器人平台上进行的真实世界实验,通过360次试验,验证了安全接触,测量的法向力始终低于10N。结果表明,ContactRL能够实现安全高效的物理协作,从而推进协作机器人在接触密集型任务中的部署。

🔬 方法详解

问题定义:论文旨在解决人机协作中,如何在保证安全(避免碰撞和控制接触力)的前提下,使机器人高效完成需要物理接触的任务。现有方法通常难以同时兼顾安全性和效率,或者需要复杂的建模和控制策略,难以适应动态变化的环境。

核心思路:论文的核心思路是将人机接触的安全性直接融入强化学习的奖励函数中,通过力反馈来引导机器人学习安全的运动策略。同时,为了进一步保证部署的安全性,使用基于动能的控制障碍函数(eCBF)作为安全盾牌,对学习到的策略进行修正。

技术框架:ContactRL的整体框架包含以下几个主要模块:1) 强化学习智能体:负责学习完成任务的运动策略;2) 力反馈模块:实时获取人机接触力信息;3) 奖励函数设计:将任务完成情况和接触安全性纳入奖励函数;4) 控制障碍函数(CBF)盾牌:在执行过程中,对RL策略输出的动作进行安全修正,防止出现危险的接触。

关键创新:最重要的技术创新点在于将接触安全性直接融入强化学习的奖励函数中,并通过力反馈进行实时调整。这种方法使得机器人能够学习到自适应的运动策略,在保证安全接触的同时,最大化任务效率。与传统的基于规则或模型的控制方法相比,ContactRL具有更强的适应性和鲁棒性。

关键设计:奖励函数的设计是关键,需要平衡任务完成的奖励和接触安全性的惩罚。具体来说,奖励函数可能包含以下几个部分:任务完成奖励、接触力惩罚、平滑性奖励等。eCBF盾牌的设计也需要仔细考虑,以确保其能够在保证安全的同时,尽可能地减少对原始RL策略的干扰。此外,强化学习算法的选择(例如,TRPO、PPO等)以及网络结构的设计也会影响最终的性能。

📊 实验亮点

ContactRL在仿真环境中实现了0.2%的低安全违规率和87.7%的高任务成功率,优于现有的约束强化学习基线。在真实的UR3e机器人平台上,通过360次试验,验证了安全接触,测量的法向力始终低于10N。这些结果表明,ContactRL能够有效地学习安全高效的运动策略,并在实际应用中表现出良好的性能。

🎯 应用场景

ContactRL具有广泛的应用前景,例如在医疗康复、辅助装配、物流搬运等领域,可以实现安全高效的人机协作。该研究有助于推动协作机器人在接触密集型任务中的部署,提高生产效率和安全性,并改善人机交互体验。未来,该方法可以扩展到更复杂的任务和环境,例如多机器人协作、动态障碍物规避等。

📄 摘要(原文)

In collaborative human-robot tasks, safety requires not only avoiding collisions but also ensuring safe, intentional physical contact. We present ContactRL, a reinforcement learning (RL) based framework that directly incorporates contact safety into the reward function through force feedback. This enables a robot to learn adaptive motion profiles that minimize human-robot contact forces while maintaining task efficiency. In simulation, ContactRL achieves a low safety violation rate of 0.2\% with a high task success rate of 87.7\%, outperforming state-of-the-art constrained RL baselines. In order to guarantee deployment safety, we augment the learned policy with a kinetic energy based Control Barrier Function (eCBF) shield. Real-world experiments on an UR3e robotic platform performing small object handovers from a human hand across 360 trials confirm safe contact, with measured normal forces consistently below 10N. These results demonstrate that ContactRL enables safe and efficient physical collaboration, thereby advancing the deployment of collaborative robots in contact-rich tasks.