Learning Human Reaching Optimality Principles from Minimal Observation Inverse Reinforcement Learning

📄 arXiv: 2510.00329v1 📥 PDF

作者: Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti

分类: cs.RO

发布日期: 2025-09-30

备注: 8 pages, 4 figures


💡 一句话要点

提出基于最小观测逆强化学习的人体手臂运动最优性建模方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 逆强化学习 运动建模 人体运动 最小观测 运动控制 人形机器人 生物力学

📋 核心要点

  1. 传统逆强化学习方法在建模人类运动时需要大量演示数据,且收敛速度慢,限制了其应用。
  2. 本文提出MO-IRL方法,通过迭代优化代价权重,显著减少了所需演示数据量,并加速了收敛。
  3. 实验表明,该方法能有效预测人体手臂运动轨迹,并揭示运动控制中的动态代价结构,具有良好的泛化能力。

📝 摘要(中文)

本文研究了最小观测逆强化学习(MO-IRL)在建模和预测具有时变代价权重的人体手臂到达运动中的应用。使用平面二连杆生物力学模型和高分辨率运动捕捉数据,针对受试者执行的指向任务,我们将每个轨迹分割成多个阶段,并学习特定阶段的七个候选代价函数的组合。MO-IRL通过在最大熵逆强化学习公式中缩放观察到的和生成的轨迹来迭代地细化代价权重,与经典的逆强化学习方法相比,大大减少了所需的演示次数和收敛时间。在每个姿势上训练十次试验,对于六段和八段权重划分,平均关节角度均方根误差(RMSE)分别为6.4度和5.6度,而使用单个静态权重时为10.4度。对剩余试验的交叉验证,以及首次对未见受试者的20次试验进行受试者间验证,都显示出相当的预测精度,约为8度RMSE,表明了强大的泛化能力。学习到的权重强调运动开始和结束期间的关节加速度最小化,这与生物运动中观察到的平滑性原则一致。这些结果表明,MO-IRL可以有效地揭示人类运动控制中动态的、与受试者无关的代价结构,并具有在人形机器人中的潜在应用。

🔬 方法详解

问题定义:本文旨在解决如何高效地从少量人体运动数据中学习到能够准确预测运动轨迹,并揭示潜在运动控制机制的问题。现有逆强化学习方法需要大量的演示数据,计算复杂度高,难以应用于复杂的人体运动建模。

核心思路:核心思路是利用最小观测逆强化学习(MO-IRL),通过迭代地优化代价权重,使得模型生成的轨迹与观察到的轨迹尽可能一致。MO-IRL通过缩放观察到的和生成的轨迹,在最大熵逆强化学习框架下进行优化,从而减少了对大量数据的依赖。

技术框架:整体流程包括:1) 数据采集:使用运动捕捉系统记录人体手臂运动轨迹;2) 轨迹分割:将轨迹分割成多个阶段;3) 特征提取:提取每个阶段的运动学特征;4) MO-IRL优化:使用MO-IRL算法迭代优化每个阶段的代价权重;5) 轨迹预测:使用学习到的代价权重预测新的运动轨迹。

关键创新:关键创新在于MO-IRL算法的应用,它通过迭代地缩放轨迹,减少了对大量数据的需求,并加速了收敛。此外,将轨迹分割成多个阶段,并为每个阶段学习不同的代价权重,能够更好地捕捉运动过程中的动态变化。

关键设计:代价函数由七个候选代价函数组成,包括关节角度、关节速度和关节加速度的最小化。使用最大熵逆强化学习框架,通过优化代价权重来最大化观察到的轨迹的概率。采用Root Mean Squared Error (RMSE) 作为评价指标,衡量预测轨迹与真实轨迹之间的差异。

📊 实验亮点

实验结果表明,使用MO-IRL方法,在每个姿势上训练十次试验,对于六段和八段权重划分,平均关节角度均方根误差(RMSE)分别为6.4度和5.6度,而使用单个静态权重时为10.4度。对未见受试者的20次试验进行受试者间验证,预测精度约为8度RMSE,表明了良好的泛化能力。

🎯 应用场景

该研究成果可应用于人形机器人运动控制,使其能够模仿人类的自然运动方式。此外,该方法还可用于康复训练,通过分析患者的运动轨迹,评估其运动能力,并制定个性化的康复计划。该研究对于理解人类运动控制机制,以及开发更智能、更人性化的机器人系统具有重要意义。

📄 摘要(原文)

This paper investigates the application of Minimal Observation Inverse Reinforcement Learning (MO-IRL) to model and predict human arm-reaching movements with time-varying cost weights. Using a planar two-link biomechanical model and high-resolution motion-capture data from subjects performing a pointing task, we segment each trajectory into multiple phases and learn phase-specific combinations of seven candidate cost functions. MO-IRL iteratively refines cost weights by scaling observed and generated trajectories in the maximum entropy IRL formulation, greatly reducing the number of required demonstrations and convergence time compared to classical IRL approaches. Training on ten trials per posture yields average joint-angle Root Mean Squared Errors (RMSE) of 6.4 deg and 5.6 deg for six- and eight-segment weight divisions, respectively, versus 10.4 deg using a single static weight. Cross-validation on remaining trials and, for the first time, inter-subject validation on an unseen subject's 20 trials, demonstrates comparable predictive accuracy, around 8 deg RMSE, indicating robust generalization. Learned weights emphasize joint acceleration minimization during movement onset and termination, aligning with smoothness principles observed in biological motion. These results suggest that MO-IRL can efficiently uncover dynamic, subject-independent cost structures underlying human motor control, with potential applications for humanoid robots.