Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces
作者: Yaqi Li, Zhengqi Han, Huifang Liu, Steven W. Su
分类: cs.RO
发布日期: 2026-03-06
💡 一句话要点
提出双智能体多模型强化学习,用于解耦任务空间中事件触发的人机协同自适应
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 强化学习 康复机器人 事件触发控制 双智能体 多模型学习 自适应控制
📋 核心要点
- 传统固定频率控制在人机协作康复机器人中易因逆运动学执行时间变化导致轨迹震荡。
- 提出事件触发的双智能体多模型强化学习(DAMMRL)框架,人类和机器人分别控制不同参数以实现协同自适应。
- 实验表明,该方法能有效抑制航路点抖动,平衡空间精度和时间效率,显著提高物体获取成功率。
📝 摘要(中文)
本文提出了一种共享控制的康复策略,用于定制的6自由度(6-DoF)上肢机器人,该策略将复杂的抓取任务分解为解耦的空间轴。患者使用二元命令控制主要的抓取方向,而机器人自主管理正交的修正运动。由于传统的固定频率控制通常会因逆运动学执行时间的变化而导致轨迹振荡,因此提出了一种事件驱动的进展策略。该架构仅在末端执行器进入以目标航路点为中心的容许球内时才触发后续控制动作,并在半虚拟设置中进行了验证,该设置将物理压力传感器连接到MuJoCo模拟。为了安全有效地优化人机协同自适应,本研究引入了双智能体多模型强化学习(DAMMRL)。该框架离散化决策特征:人类智能体选择容许球半径以反映其固有的速度-精度权衡,而机器人智能体动态调整其3D笛卡尔步长大小以补充用户的认知状态。经过仿真训练并在混合环境中部署后,这种事件触发的DAMMRL方法有效地抑制了航路点抖动,平衡了空间精度和时间效率,并显著提高了物体获取任务的成功率。
🔬 方法详解
问题定义:论文旨在解决人机协作康复机器人控制中,由于患者认知状态和运动能力差异,以及传统固定频率控制策略导致的轨迹震荡和效率低下问题。现有方法难以兼顾空间精度和时间效率,且人机协同自适应能力不足。
核心思路:论文的核心思路是将复杂任务解耦到不同的空间轴上,由人类控制主要方向,机器人辅助修正。同时,采用事件触发机制,仅在必要时才进行控制动作,避免不必要的调整。此外,利用双智能体强化学习,让人类和机器人分别学习控制不同的参数,以实现更好的协同自适应。
技术框架:整体框架包含以下几个主要模块:1) 任务解耦:将复杂的抓取任务分解为解耦的空间轴。2) 事件触发机制:基于末端执行器与目标航路点的距离,决定是否触发控制动作。3) 双智能体强化学习:人类智能体控制容许球半径,机器人智能体控制笛卡尔步长。4) 仿真环境:使用MuJoCo进行训练和验证。
关键创新:论文的关键创新在于提出了双智能体多模型强化学习(DAMMRL)框架,将人类和机器人视为独立的智能体,分别学习控制不同的参数。这种方法能够更好地适应人类的认知状态和运动能力,实现更高效的人机协同自适应。此外,事件触发机制也能够有效抑制航路点抖动,提高控制精度。
关键设计:DAMMRL框架中,人类智能体选择容许球半径,反映其速度-精度权衡;机器人智能体动态调整3D笛卡尔步长,补充用户认知状态。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该研究通过仿真实验验证了事件触发的DAMMRL方法的有效性。实验结果表明,该方法能够有效抑制航路点抖动,平衡空间精度和时间效率,并显著提高了物体获取任务的成功率。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于上肢康复机器人、人机协作机器人等领域,具有重要的临床价值和社会意义。通过自适应调整控制策略,能够更好地满足患者的个性化需求,提高康复效果和效率。未来,该方法有望推广到其他类型的康复机器人和人机协作系统。
📄 摘要(原文)
This paper presents a shared-control rehabilitation policy for a custom 6-degree-of-freedom (6-DoF) upper-limb robot that decomposes complex reaching tasks into decoupled spatial axes. The patient governs the primary reaching direction using binary commands, while the robot autonomously manages orthogonal corrective motions. Because traditional fixed-frequency control often induces trajectory oscillations due to variable inverse-kinematics execution times, an event-driven progression strategy is proposed. This architecture triggers subsequent control actions only when the end-effector enters an admission sphere centred on the immediate target waypoint, and was validated in a semi-virtual setup linking a physical pressure sensor to a MuJoCo simulation. To optimise human--robot co-adaptation safely and efficiently, this study introduces Dual Agent Multiple Model Reinforcement Learning (DAMMRL). This framework discretises decision characteristics: the human agent selects the admission sphere radius to reflect their inherent speed--accuracy trade-off, while the robot agent dynamically adjusts its 3D Cartesian step magnitudes to complement the user's cognitive state. Trained in simulation and deployed across mixed environments, this event-triggered DAMMRL approach effectively suppresses waypoint chatter, balances spatial precision with temporal efficiency, and significantly improves success rates in object acquisition tasks.