Force-Aware Residual DAgger via Trajectory Editing for Precision Insertion with Impedance Control
作者: Yiou Huang, Ma Ning, Weichu Zhao, Zinuo Liu, Jun Sun, Qiufeng Wang, Yaran Chen
分类: cs.RO
发布日期: 2026-03-04
💡 一句话要点
提出TER-DAgger,通过轨迹编辑和力感知,提升阻抗控制下的精密插入任务成功率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 轨迹编辑 残差学习 力感知 阻抗控制 精密插入 人机协作
📋 核心要点
- 接触式精密插入任务的模仿学习易受协变量偏移影响,需要持续的人工监控。
- TER-DAgger通过轨迹编辑融合策略rollout和人工修正,学习残差策略,提供稳定监督。
- 力感知机制减少人工干预,结合阻抗控制确保安全,实验表明成功率提升超过37%。
📝 摘要(中文)
本文提出了一种名为轨迹编辑残差数据集聚合(TER-DAgger)的可扩展的、力感知的、人机协作模仿学习框架,旨在通过基于优化的轨迹编辑学习残差策略来缓解协变量偏移。该方法平滑地融合策略rollout和人工修正轨迹,提供一致且稳定的监督。此外,引入了一种力感知的故障预测机制,仅在预测的末端执行器力和测量力之间出现差异时才触发人工干预,从而显著降低了对持续专家监控的需求。所有学习到的策略都在笛卡尔阻抗控制框架内执行,确保在接触丰富的交互过程中具有顺应性和安全性。在仿真和真实精密插入任务中的大量实验表明,与行为克隆、人工引导校正、重新训练和微调基线相比,TER-DAgger的平均成功率提高了37%以上,证明了其在缓解协变量偏移和实现接触丰富的操作中的可扩展部署方面的有效性。
🔬 方法详解
问题定义:现有模仿学习方法在接触式精密插入任务中,由于协变量偏移问题,导致策略泛化能力不足,需要专家持续监控和干预,成本高昂且效率低下。现有的行为克隆等方法难以适应真实环境中的扰动和不确定性。
核心思路:TER-DAgger的核心思路是通过轨迹编辑,将机器自主rollout的轨迹与人工修正的轨迹平滑融合,从而学习一个残差策略。该残差策略能够学习到专家纠正行为,从而缓解协变量偏移。同时,利用力传感器信息,预测末端执行器的受力情况,只有当预测值与实际测量值出现较大偏差时,才触发人工干预,从而减少对人工的依赖。
技术框架:TER-DAgger框架主要包含以下几个模块:1) 策略rollout模块:使用当前策略在环境中执行任务。2) 轨迹编辑模块:将策略rollout的轨迹与人工修正的轨迹进行融合,生成新的训练数据。3) 残差策略学习模块:利用融合后的数据,学习一个残差策略,该策略用于修正原始策略的输出。4) 力感知故障预测模块:基于力传感器数据,预测末端执行器的受力情况,并判断是否需要人工干预。5) 阻抗控制模块:所有学习到的策略都在笛卡尔阻抗控制框架下执行,确保机器人在接触过程中的安全性和顺应性。
关键创新:TER-DAgger的关键创新在于:1) 提出了一种基于轨迹编辑的残差策略学习方法,能够有效地缓解协变量偏移问题。2) 引入了一种力感知的故障预测机制,能够显著减少对人工干预的需求。3) 将学习到的策略与阻抗控制相结合,确保了机器人在接触过程中的安全性和顺应性。与传统方法相比,TER-DAgger无需持续的人工监控,能够更好地适应真实环境中的扰动和不确定性。
关键设计:轨迹编辑采用优化方法,目标是最小化rollout轨迹与专家修正轨迹之间的差异,同时保持轨迹的光滑性。力感知模块使用神经网络预测末端执行器的受力,损失函数包括预测力与实际力的均方误差。阻抗控制器的参数(刚度、阻尼)需要根据具体任务进行调整。残差策略的网络结构和训练方式需要根据具体任务进行选择。
🖼️ 关键图片
📊 实验亮点
在仿真和真实环境下的精密插入实验中,TER-DAgger相比于行为克隆、人工引导校正、重新训练和微调等基线方法,平均成功率提高了37%以上,验证了其在缓解协变量偏移和实现接触丰富的操作中的有效性。
🎯 应用场景
TER-DAgger适用于各种需要高精度和安全性的接触式操作任务,例如精密装配、医疗手术、以及其他需要在复杂环境中进行操作的机器人应用。该方法能够降低对人工干预的依赖,提高自动化程度,并降低操作风险。
📄 摘要(原文)
Imitation learning (IL) has shown strong potential for contact-rich precision insertion tasks. However, its practical deployment is often hindered by covariate shift and the need for continuous expert monitoring to recover from failures during execution. In this paper, we propose Trajectory Editing Residual Dataset Aggregation (TER-DAgger), a scalable and force-aware human-in-the-loop imitation learning framework that mitigates covariate shift by learning residual policies through optimization-based trajectory editing. This approach smoothly fuses policy rollouts with human corrective trajectories, providing consistent and stable supervision. Second, we introduce a force-aware failure anticipation mechanism that triggers human intervention only when discrepancies arise between predicted and measured end-effector forces, significantly reducing the requirement for continuous expert monitoring. Third, all learned policies are executed within a Cartesian impedance control framework, ensuring compliant and safe behavior during contact-rich interactions. Extensive experiments in both simulation and real-world precision insertion tasks show that TER-DAgger improves the average success rate by over 37\% compared to behavior cloning, human-guided correction, retraining, and fine-tuning baselines, demonstrating its effectiveness in mitigating covariate shift and enabling scalable deployment in contact-rich manipulation.