Learning to Capture Rocks using an Excavator: A Reinforcement Learning Approach with Guiding Reward Formulation

📄 arXiv: 2510.04168v2 📥 PDF

作者: Amirmasoud Molaei, Mohammad Heravi, Reza Ghabcheloo

分类: cs.RO, eess.SY

发布日期: 2025-10-05 (更新: 2025-10-17)


💡 一句话要点

提出基于强化学习的挖掘机抓取石块方法,无需显式建模。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 挖掘机 石块抓取 机器人控制 领域随机化

📋 核心要点

  1. 传统挖掘机抓取石块依赖人工经验,难以应对非结构化环境和复杂的接触交互。
  2. 论文提出基于强化学习的控制框架,通过PPO算法学习抓取策略,无需显式建模。
  3. 实验表明,该策略泛化性好,在不同石块和土壤条件下成功率高,媲美人类操作。

📝 摘要(中文)

本文提出了一种完全数据驱动的石块抓取控制框架,无需显式建模石块或土壤属性。该方法使用近端策略优化(PPO)算法和引导奖励函数,在AGX Dynamics模拟器中训练一个无模型的强化学习智能体。学习到的策略直接输出关节速度指令,控制CAT365挖掘机模型的动臂、斗杆和铲斗。通过对石块几何形状、密度和质量以及铲斗、石块和目标位置的初始配置进行广泛的领域随机化,增强了鲁棒性。据我们所知,这是第一个开发和评估基于强化学习的石块抓取控制器的研究。实验结果表明,该策略能够很好地泛化到未见过的石块和不同的土壤条件,实现了与人类参与者相当的高成功率,同时保持了机器的稳定性。这些发现证明了基于学习的挖掘策略在离散物体操作中的可行性,而无需专门的硬件或详细的材料模型。

🔬 方法详解

问题定义:现有挖掘机自主挖掘方法主要集中在连续介质(如土壤)挖掘,或依赖于专用夹具,难以应用于真实建筑工地的石块抓取任务。石块抓取涉及操纵大型、不规则的石块,且石块与颗粒状物质的复杂接触交互使得基于模型的控制方法难以实现。因此,需要一种能够处理非结构化环境和复杂物理交互的自主石块抓取方法。

核心思路:论文的核心思路是利用强化学习直接从数据中学习挖掘机的控制策略,避免了对石块和土壤进行显式建模的需要。通过在模拟环境中训练智能体,使其能够适应不同的石块形状、大小和环境条件,从而实现鲁棒的石块抓取。这种方法的核心优势在于其数据驱动的特性,能够自动学习复杂的控制策略,而无需人工设计或调整。

技术框架:该框架主要包含以下几个模块:1) AGX Dynamics模拟器,用于模拟挖掘机和石块的物理交互;2) 强化学习智能体,使用PPO算法进行训练;3) 奖励函数,用于指导智能体的学习;4) 领域随机化模块,用于增加训练数据的多样性,提高策略的泛化能力。整体流程是:在模拟环境中,智能体根据当前状态选择动作(挖掘机的关节速度),模拟器根据动作更新环境状态,然后计算奖励,智能体根据奖励更新策略,重复这个过程直到策略收敛。

关键创新:该论文最重要的技术创新点在于提出了一种完全数据驱动的石块抓取控制框架,该框架无需显式建模石块或土壤的属性,而是通过强化学习直接从数据中学习控制策略。与传统的基于模型的控制方法相比,该方法能够更好地处理非结构化环境和复杂的物理交互。此外,该研究是首次尝试使用强化学习解决挖掘机的石块抓取问题。

关键设计:该研究的关键设计包括:1) 使用PPO算法作为强化学习算法,因为它具有较好的稳定性和收敛性;2) 设计了一个引导奖励函数,该函数考虑了石块与铲斗的距离、石块的高度以及机器的稳定性等因素,以指导智能体学习有效的抓取策略;3) 采用领域随机化技术,对石块的几何形状、密度和质量以及铲斗、石块和目标位置的初始配置进行随机化,以提高策略的泛化能力。具体来说,奖励函数可能包含以下几项:与目标位置的距离奖励、抓取成功奖励、稳定性惩罚等。网络结构方面,可能采用多层感知机(MLP)或循环神经网络(RNN)来处理状态信息并输出动作。

📊 实验亮点

实验结果表明,该策略能够很好地泛化到未见过的石块和不同的土壤条件,实现了与人类参与者相当的高成功率,同时保持了机器的稳定性。具体而言,在模拟环境中,该策略的石块抓取成功率达到了XX%(具体数据论文中给出),与人类操作员的平均成功率XX%(具体数据论文中给出)相当。此外,通过领域随机化,该策略在不同土壤条件下的鲁棒性也得到了验证。

🎯 应用场景

该研究成果可应用于建筑工地、矿山等场景,实现挖掘机的自主石块抓取,提高作业效率和安全性。未来可扩展到其他类型的离散物体操作任务,例如建筑垃圾清理、灾后救援等。此外,该方法无需依赖精确的物理模型,降低了开发成本,为智能建造领域提供了新的解决方案。

📄 摘要(原文)

Rock capturing with standard excavator buckets is a challenging task typically requiring the expertise of skilled operators. Unlike soil digging, it involves manipulating large, irregular rocks in unstructured environments where complex contact interactions with granular material make model-based control impractical. Existing autonomous excavation methods focus mainly on continuous media or rely on specialized grippers, limiting their applicability to real-world construction sites. This paper introduces a fully data-driven control framework for rock capturing that eliminates the need for explicit modeling of rock or soil properties. A model-free reinforcement learning agent is trained in the AGX Dynamics simulator using the Proximal Policy Optimization (PPO) algorithm and a guiding reward formulation. The learned policy outputs joint velocity commands directly to the boom, arm, and bucket of a CAT365 excavator model. Robustness is enhanced through extensive domain randomization of rock geometry, density, and mass, as well as the initial configurations of the bucket, rock, and goal position. To the best of our knowledge, this is the first study to develop and evaluate an RL-based controller for the rock capturing task. Experimental results show that the policy generalizes well to unseen rocks and varying soil conditions, achieving high success rates comparable to those of human participants while maintaining machine stability. These findings demonstrate the feasibility of learning-based excavation strategies for discrete object manipulation without requiring specialized hardware or detailed material models.