ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

📄 arXiv: 2603.02104v1 📥 PDF

作者: Xuerui Wang, Guangyu Ren, Tianhong Dai, Bintao Hu, Shuangyao Huang, Wenzhang Zhang, Hengyan Liu

分类: cs.RO

发布日期: 2026-03-02

备注: 13 pages (including references and appendix), 12 figures. Accepted to ICAPS 2026. Code available at https://github.com/Xuerui-Wang-oss/Adaptive-Curriculum-Learning-and-Dynamic-Contrastive-Control


💡 一句话要点

ACDC:结合动态对比控制的自适应课程规划,提升机器人操作中的目标条件强化学习性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 目标条件强化学习 机器人操作 自适应课程学习 对比学习 动态控制

📋 核心要点

  1. 现有目标条件强化学习方法在机器人操作任务中,过度依赖经验优先级排序,导致在复杂和多样化的任务中表现受限。
  2. ACDC方法通过自适应课程规划动态平衡探索与利用,并结合动态对比控制进行幅度引导的经验选择,从而优化学习轨迹。
  3. 实验结果表明,ACDC在样本效率和任务成功率上均优于现有方法,验证了其在机器人操作任务中的有效性。

📝 摘要(中文)

目标条件强化学习在机器人操作中展现了巨大的潜力,但现有方法过度依赖已收集经验的优先级排序,导致在多样化任务中表现欠佳。受人类学习行为的启发,我们提出了一种更全面的学习范式ACDC,它集成了多维自适应课程(AC)规划与动态对比(DC)控制,以引导智能体沿着精心设计的学习轨迹前进。具体而言,在规划层面,AC组件通过动态平衡多样性驱动的探索和质量驱动的利用,根据智能体的成功率和训练进度来安排学习课程。在控制层面,DC组件通过范数约束的对比学习来实现课程规划,从而实现与当前课程重点对齐的幅度引导的经验选择。在具有挑战性的机器人操作任务上的大量实验表明,ACDC在样本效率和最终任务成功率方面始终优于最先进的基线方法。

🔬 方法详解

问题定义:现有目标条件强化学习方法在机器人操作任务中,主要痛点在于难以有效探索和利用经验,尤其是在任务目标多样化的情况下。简单地优先考虑某些经验可能导致次优策略,无法充分适应复杂环境。

核心思路:ACDC的核心思路是模仿人类学习过程,通过自适应地调整学习难度(课程规划)和选择合适的经验(对比控制)来引导智能体学习。通过平衡探索和利用,并根据智能体的表现动态调整学习重点,从而更有效地学习策略。

技术框架:ACDC包含两个主要组件:自适应课程(AC)规划和动态对比(DC)控制。AC组件负责根据智能体的成功率和训练进度,动态调整学习课程,平衡多样性驱动的探索和质量驱动的利用。DC组件则通过范数约束的对比学习,根据当前课程的重点选择合适的经验,并引导智能体学习。整体流程是AC先规划课程,DC根据课程选择经验并进行学习,然后根据学习结果反馈给AC,进行下一轮课程规划。

关键创新:ACDC的关键创新在于将自适应课程规划与动态对比控制相结合,形成一个闭环的学习系统。AC组件能够根据智能体的学习状态动态调整学习目标,而DC组件则能够根据当前的学习目标选择合适的经验进行学习。这种结合使得智能体能够更有效地探索环境,并学习到更鲁棒的策略。与现有方法相比,ACDC不再是静态地选择经验,而是动态地根据学习进度和目标进行选择。

关键设计:AC组件的关键设计在于如何平衡探索和利用。论文采用了一种基于成功率和训练进度的动态调整策略,根据智能体的表现动态调整探索的比例。DC组件的关键设计在于范数约束的对比学习,通过约束经验的范数,使得智能体能够更好地学习到与当前课程重点相关的特征。具体的损失函数和网络结构细节在论文中有详细描述,包括对比学习的温度参数、范数约束的强度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ACDC在多个具有挑战性的机器人操作任务上进行了评估,实验结果表明,ACDC在样本效率和最终任务成功率方面均优于现有最先进的基线方法。具体而言,ACDC在某些任务上的成功率提升了显著百分比,并且在更少的训练样本下达到了更高的性能,证明了其优越性。

🎯 应用场景

ACDC方法具有广泛的应用前景,可应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法能够提高机器人在复杂环境中的学习效率和鲁棒性,降低人工干预的需求,从而实现更智能、更自主的机器人系统。此外,该方法也可推广到其他强化学习领域,例如游戏AI、自动驾驶等。

📄 摘要(原文)

Goal-conditioned reinforcement learning has shown considerable potential in robotic manipulation; however, existing approaches remain limited by their reliance on prioritizing collected experience, resulting in suboptimal performance across diverse tasks. Inspired by human learning behaviors, we propose a more comprehensive learning paradigm, ACDC, which integrates multidimensional Adaptive Curriculum (AC) Planning with Dynamic Contrastive (DC) Control to guide the agent along a well-designed learning trajectory. More specifically, at the planning level, the AC component schedules the learning curriculum by dynamically balancing diversity-driven exploration and quality-driven exploitation based on the agent's success rate and training progress. At the control level, the DC component implements the curriculum plan through norm-constrained contrastive learning, enabling magnitude-guided experience selection aligned with the current curriculum focus. Extensive experiments on challenging robotic manipulation tasks demonstrate that ACDC consistently outperforms the state-of-the-art baselines in both sample efficiency and final task success rate.