Collaborative Loco-Manipulation for Pick-and-Place Tasks with Dynamic Reward Curriculum

📄 arXiv: 2509.13239v1 📥 PDF

作者: Tianxu An, Flavio De Vincenti, Yuntao Ma, Marco Hutter, Stelian Coros

分类: cs.RO

发布日期: 2025-09-16


💡 一句话要点

提出基于动态奖励课程的分层强化学习方法,解决单/双臂腿式机器人协同抓取放置任务。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 强化学习 机器人协同 抓取放置 动态奖励课程 腿式机器人

📋 核心要点

  1. 现有强化学习方法在长时程抓取放置任务中效率较低,难以实现机器人间的有效协同。
  2. 提出动态奖励课程,引导智能体逐步完成以有效载荷为中心的子目标,提升学习效率。
  3. 实验表明,该方法在仿真和真实机器人上均表现出优异性能,并实现了双臂协同抓取。

📝 摘要(中文)

本文提出了一种分层强化学习(RL)流程,用于训练单臂腿式机器人在单机器人和双机器人协同环境中执行端到端的抓取放置(P&P)任务,包括接近有效载荷到在目标区域释放它。我们引入了一种新颖的动态奖励课程,通过逐步引导智能体完成以有效载荷为中心的一系列子目标,使单个策略能够有效地学习长时程的P&P操作。与最先进的长时程RL任务方法相比,我们的方法在仿真实验中将训练效率提高了55%,执行时间减少了18.6%。在双机器人情况下,我们表明我们的策略使每个机器人能够在不同的任务阶段关注其观察空间的不同组成部分,从而通过自主注意力转移来促进有效的协调。我们通过在单机器人和双机器人场景中使用ANYmal D平台进行的真实世界实验验证了我们的方法。据我们所知,这是第一个解决使用两个腿式机械臂进行协同P&P完整范围的RL流程。

🔬 方法详解

问题定义:论文旨在解决腿式机器人(单臂或双臂)在复杂环境中进行长时程抓取放置任务的挑战。现有方法通常难以训练,效率低下,尤其是在协同操作中,机器人难以有效协调。现有方法难以处理长时程任务中奖励稀疏的问题,并且缺乏有效的机器人间协同机制。

核心思路:论文的核心思路是利用分层强化学习和动态奖励课程,将复杂的抓取放置任务分解为一系列更易于学习的子目标。通过动态调整奖励函数,逐步引导智能体学习,从而提高训练效率和策略的泛化能力。对于双臂协同任务,该方法鼓励机器人自主地关注不同的观察空间,从而实现有效的协同。

技术框架:该方法采用分层强化学习框架,包含以下主要模块:1) 状态表示模块:用于提取机器人和环境的相关信息。2) 动作控制模块:用于控制机器人的运动。3) 奖励函数模块:用于评估智能体的行为。4) 策略优化模块:使用强化学习算法(如PPO)优化策略。动态奖励课程则在训练过程中动态调整奖励函数,以逐步引导智能体学习。

关键创新:该方法的主要创新在于动态奖励课程的设计。传统的奖励函数通常是固定的,难以适应复杂任务。动态奖励课程可以根据智能体的学习进度,自动调整奖励函数,从而提高学习效率。此外,该方法还通过鼓励机器人自主关注不同的观察空间,实现了有效的协同。

关键设计:动态奖励课程的关键设计包括:1) 定义一系列以有效载荷为中心的子目标,如接近有效载荷、抓取有效载荷、移动有效载荷到目标区域、释放有效载荷。2) 为每个子目标设计相应的奖励函数。3) 根据智能体的学习进度,动态调整每个子目标的奖励权重。4) 使用PPO算法进行策略优化,并采用合适的超参数设置。

📊 实验亮点

实验结果表明,该方法在仿真环境中将训练效率提高了55%,执行时间减少了18.6%,优于现有方法。在真实机器人实验中,该方法成功实现了单臂和双臂协同抓取放置任务,验证了其在实际应用中的可行性。双机器人协同实验表明,该策略能够使每个机器人自主关注不同的观察空间,从而实现有效的协同。

🎯 应用场景

该研究成果可应用于物流、仓储、灾害救援等领域,实现复杂环境下的自主抓取放置任务。例如,在仓库中,多个腿式机器人可以协同搬运重物;在灾害现场,机器人可以自主抓取并转移救援物资。该技术还有潜力应用于医疗、农业等领域,提升自动化水平。

📄 摘要(原文)

We present a hierarchical RL pipeline for training one-armed legged robots to perform pick-and-place (P&P) tasks end-to-end -- from approaching the payload to releasing it at a target area -- in both single-robot and cooperative dual-robot settings. We introduce a novel dynamic reward curriculum that enables a single policy to efficiently learn long-horizon P&P operations by progressively guiding the agents through payload-centered sub-objectives. Compared to state-of-the-art approaches for long-horizon RL tasks, our method improves training efficiency by 55% and reduces execution time by 18.6% in simulation experiments. In the dual-robot case, we show that our policy enables each robot to attend to different components of its observation space at distinct task stages, promoting effective coordination via autonomous attention shifts. We validate our method through real-world experiments using ANYmal D platforms in both single- and dual-robot scenarios. To our knowledge, this is the first RL pipeline that tackles the full scope of collaborative P&P with two legged manipulators.