Towards Learning Boulder Excavation with Hydraulic Excavators
作者: Jonas Gruetter, Lorenzo Terenzi, Pascal Egli, Marco Hutter
分类: cs.RO
发布日期: 2025-09-22
💡 一句话要点
提出基于强化学习的挖掘机巨石挖掘方法,无需专用夹具。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 挖掘机 巨石挖掘 自主挖掘 机器人 液压挖掘机 稀疏感知
📋 核心要点
- 现有自主挖掘方法难以处理大型不规则岩石,或依赖专用夹具导致工作流程中断。
- 提出一种基于强化学习的策略,利用稀疏激光雷达点和本体感受反馈控制标准挖掘机铲斗。
- 现场测试表明,该方法在不同岩石和土壤类型下达到70%的挖掘成功率,接近人工操作。
📝 摘要(中文)
建筑工地在挖掘或平整土地前,通常需要移除大型岩石。人工操作员通常仅使用标准挖掘铲斗来提取这些巨石,避免更换为专用夹具而耗费时间。这项任务需要在恶劣的室外环境中操作具有未知几何形状的不规则物体,而粉尘、变化的光照和遮挡会阻碍感知。挖掘机必须适应不同的土壤阻力——在坚硬的表面上拖动或穿透松软的地面——同时协调多个液压关节,以使用铲斗固定岩石。目前的自主挖掘主要集中在连续介质(土壤、砾石)上,或者使用具有详细几何规划的专用夹具来处理离散物体。这些方法要么无法处理大型不规则岩石,要么需要不切实际的工具更换,从而中断工作流程。我们使用刚体动力学和分析土壤模型在模拟中训练强化学习策略。该策略处理来自基于视觉的分割的稀疏激光雷达点(每个岩石仅 20 个点)和本体感受反馈,以控制标准挖掘机铲斗。学习到的智能体根据土壤阻力发现不同的策略:在坚硬的土壤中沿表面拖动,在松软的条件下直接穿透。在 12 吨挖掘机上的现场测试中,针对不同的岩石(0.4-0.7 米)和土壤类型,成功率达到 70%,而人工操作员的成功率为 83%。这表明,尽管感知稀疏且室外条件具有挑战性,但标准建筑设备可以学习复杂的操纵。
🔬 方法详解
问题定义:论文旨在解决建筑工地中利用标准挖掘机铲斗自主挖掘大型不规则岩石的问题。现有方法要么专注于连续介质的挖掘,要么依赖于需要频繁更换工具的专用夹具,无法高效地处理此类任务。人工操作员虽然可以胜任,但自动化程度低,效率提升空间有限。
核心思路:论文的核心思路是利用强化学习,使挖掘机能够学习在复杂环境中操作标准铲斗来挖掘巨石。通过模拟环境训练智能体,使其能够适应不同的土壤阻力,并根据感知到的岩石形状和位置,自主规划挖掘策略。这种方法避免了对岩石进行精确几何建模的需求,也无需更换工具,从而提高了挖掘效率。
技术框架:整体框架包括以下几个主要部分:1) 基于视觉的岩石分割,提取稀疏激光雷达点云;2) 强化学习智能体,接收激光雷达点云和本体感受反馈作为输入,输出挖掘机液压关节的控制指令;3) 模拟环境,使用刚体动力学和分析土壤模型模拟挖掘过程,用于训练智能体;4) 奖励函数,用于指导智能体的学习,鼓励成功挖掘并惩罚不安全行为。
关键创新:最重要的技术创新点在于利用强化学习,使挖掘机能够学习在稀疏感知条件下,使用标准铲斗进行复杂的操纵任务。与传统的基于几何规划的方法不同,该方法不需要对岩石进行精确建模,而是通过试错学习,自主发现有效的挖掘策略。此外,该方法还能够适应不同的土壤阻力,选择合适的挖掘方式。
关键设计:论文使用深度强化学习算法训练智能体,具体算法未知。奖励函数的设计至关重要,需要平衡挖掘成功率、挖掘效率和安全性。激光雷达点云的稀疏程度(每个岩石 20 个点)是一个关键参数,需要在感知精度和计算复杂度之间进行权衡。土壤模型的选择也会影响模拟环境的真实性,进而影响智能体的泛化能力。
📊 实验亮点
在12吨挖掘机上的现场测试中,该方法在不同岩石(0.4-0.7米)和土壤类型下,挖掘成功率达到70%,与人工操作员的83%成功率接近。这表明,即使在感知稀疏和环境复杂的条件下,标准建筑设备也能通过学习实现复杂的操纵任务。
🎯 应用场景
该研究成果可应用于建筑工地、矿山等场景,实现挖掘机的自主挖掘作业,提高施工效率和安全性。通过减少对人工操作的依赖,降低人力成本,并可在恶劣环境下进行作业。未来可进一步扩展到其他类型的挖掘任务,例如废墟清理、灾后救援等。
📄 摘要(原文)
Construction sites frequently require removing large rocks before excavation or grading can proceed. Human operators typically extract these boulders using only standard digging buckets, avoiding time-consuming tool changes to specialized grippers. This task demands manipulating irregular objects with unknown geometries in harsh outdoor environments where dust, variable lighting, and occlusions hinder perception. The excavator must adapt to varying soil resistance--dragging along hard-packed surfaces or penetrating soft ground--while coordinating multiple hydraulic joints to secure rocks using a shovel. Current autonomous excavation focuses on continuous media (soil, gravel) or uses specialized grippers with detailed geometric planning for discrete objects. These approaches either cannot handle large irregular rocks or require impractical tool changes that interrupt workflow. We train a reinforcement learning policy in simulation using rigid-body dynamics and analytical soil models. The policy processes sparse LiDAR points (just 20 per rock) from vision-based segmentation and proprioceptive feedback to control standard excavator buckets. The learned agent discovers different strategies based on soil resistance: dragging along the surface in hard soil and penetrating directly in soft conditions. Field tests on a 12-ton excavator achieved 70% success across varied rocks (0.4-0.7m) and soil types, compared to 83% for human operators. This demonstrates that standard construction equipment can learn complex manipulation despite sparse perception and challenging outdoor conditions.