ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

作者: Xuerui Wang, Guangyu Ren, Tianhong Dai, Bintao Hu, Shuangyao Huang, Wenzhang Zhang, Hengyan Liu

分类: cs.RO

发布日期: 2026-03-02

备注: 13 pages (including references and appendix), 12 figures. Accepted to ICAPS 2026. Code available at https://github.com/Xuerui-Wang-oss/Adaptive-Curriculum-Learning-and-Dynamic-Contrastive-Control

💡 一句话要点

ACDC：结合动态对比控制的自适应课程规划，提升机器人操作中的目标条件强化学习性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 目标条件强化学习 机器人操作 自适应课程学习 对比学习 动态控制

📋 核心要点

现有目标条件强化学习方法在机器人操作任务中，过度依赖经验优先级排序，导致在复杂和多样化的任务中表现受限。
ACDC方法通过自适应课程规划动态平衡探索与利用，并结合动态对比控制进行幅度引导的经验选择，从而优化学习轨迹。
实验结果表明，ACDC在样本效率和任务成功率上均优于现有方法，验证了其在机器人操作任务中的有效性。

📝 摘要（中文）

目标条件强化学习在机器人操作中展现了巨大的潜力，但现有方法过度依赖已收集经验的优先级排序，导致在多样化任务中表现欠佳。受人类学习行为的启发，我们提出了一种更全面的学习范式ACDC，它集成了多维自适应课程（AC）规划与动态对比（DC）控制，以引导智能体沿着精心设计的学习轨迹前进。具体而言，在规划层面，AC组件通过动态平衡多样性驱动的探索和质量驱动的利用，根据智能体的成功率和训练进度来安排学习课程。在控制层面，DC组件通过范数约束的对比学习来实现课程规划，从而实现与当前课程重点对齐的幅度引导的经验选择。在具有挑战性的机器人操作任务上的大量实验表明，ACDC在样本效率和最终任务成功率方面始终优于最先进的基线方法。

🔬 方法详解

问题定义：现有目标条件强化学习方法在机器人操作任务中，主要痛点在于难以有效探索和利用经验，尤其是在任务目标多样化的情况下。简单地优先考虑某些经验可能导致次优策略，无法充分适应复杂环境。

核心思路：ACDC的核心思路是模仿人类学习过程，通过自适应地调整学习难度（课程规划）和选择合适的经验（对比控制）来引导智能体学习。通过平衡探索和利用，并根据智能体的表现动态调整学习重点，从而更有效地学习策略。

技术框架：ACDC包含两个主要组件：自适应课程（AC）规划和动态对比（DC）控制。AC组件负责根据智能体的成功率和训练进度，动态调整学习课程，平衡多样性驱动的探索和质量驱动的利用。DC组件则通过范数约束的对比学习，根据当前课程的重点选择合适的经验，并引导智能体学习。整体流程是AC先规划课程，DC根据课程选择经验并进行学习，然后根据学习结果反馈给AC，进行下一轮课程规划。

关键创新：ACDC的关键创新在于将自适应课程规划与动态对比控制相结合，形成一个闭环的学习系统。AC组件能够根据智能体的学习状态动态调整学习目标，而DC组件则能够根据当前的学习目标选择合适的经验进行学习。这种结合使得智能体能够更有效地探索环境，并学习到更鲁棒的策略。与现有方法相比，ACDC不再是静态地选择经验，而是动态地根据学习进度和目标进行选择。

关键设计：AC组件的关键设计在于如何平衡探索和利用。论文采用了一种基于成功率和训练进度的动态调整策略，根据智能体的表现动态调整探索的比例。DC组件的关键设计在于范数约束的对比学习，通过约束经验的范数，使得智能体能够更好地学习到与当前课程重点相关的特征。具体的损失函数和网络结构细节在论文中有详细描述，包括对比学习的温度参数、范数约束的强度等。

🖼️ 关键图片

📊 实验亮点

ACDC在多个具有挑战性的机器人操作任务上进行了评估，实验结果表明，ACDC在样本效率和最终任务成功率方面均优于现有最先进的基线方法。具体而言，ACDC在某些任务上的成功率提升了显著百分比，并且在更少的训练样本下达到了更高的性能，证明了其优越性。

🎯 应用场景

ACDC方法具有广泛的应用前景，可应用于各种机器人操作任务，例如物体抓取、装配、导航等。该方法能够提高机器人在复杂环境中的学习效率和鲁棒性，降低人工干预的需求，从而实现更智能、更自主的机器人系统。此外，该方法也可推广到其他强化学习领域，例如游戏AI、自动驾驶等。

📄 摘要（原文）

Goal-conditioned reinforcement learning has shown considerable potential in robotic manipulation; however, existing approaches remain limited by their reliance on prioritizing collected experience, resulting in suboptimal performance across diverse tasks. Inspired by human learning behaviors, we propose a more comprehensive learning paradigm, ACDC, which integrates multidimensional Adaptive Curriculum (AC) Planning with Dynamic Contrastive (DC) Control to guide the agent along a well-designed learning trajectory. More specifically, at the planning level, the AC component schedules the learning curriculum by dynamically balancing diversity-driven exploration and quality-driven exploitation based on the agent's success rate and training progress. At the control level, the DC component implements the curriculum plan through norm-constrained contrastive learning, enabling magnitude-guided experience selection aligned with the current curriculum focus. Extensive experiments on challenging robotic manipulation tasks demonstrate that ACDC consistently outperforms the state-of-the-art baselines in both sample efficiency and final task success rate.

ACDC: Adaptive Curriculum Planning with Dynamic Contrastive Control for Goal-Conditioned Reinforcement Learning in Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理