Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation
作者: Clemence Grislain, Olivier Sigaud, Mohamed Chetouani
分类: cs.RO
发布日期: 2026-03-05
💡 一句话要点
HD-ExpIt:通过迭代式On-Policy优化分层扩散策略,解决语言条件下的机械臂操作任务。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分层策略 扩散模型 语言条件控制 机器人操作 迭代优化
📋 核心要点
- 现有分层策略在语言条件机械臂操作中,由于高层规划器与底层控制器能力不对齐,导致性能瓶颈。
- HD-ExpIt通过扩散模型驱动的规划自主探索成功行为,并将其知识蒸馏回分层策略,实现迭代优化。
- 实验表明,HD-ExpIt在CALVIN基准测试中,显著提升了离线训练分层策略的性能,达到SOTA水平。
📝 摘要(中文)
本文提出了一种名为HD-ExpIt的框架,用于迭代式微调分层扩散策略,通过环境反馈来提升语言条件下的机械臂操作性能。分层策略将任务分解为子目标,但由于高层规划器在生成子目标时未充分考虑底层控制器的能力限制,导致性能受限。HD-ExpIt通过扩散模型驱动的规划自主发现成功的行为,然后将其提炼回分层策略,形成一个自增强循环。该循环使规划器和控制器都能得到改进,并在无需显式代理模型的情况下,隐式地将规划器与控制器的实际能力对齐。实验结果表明,HD-ExpIt显著提高了仅在离线数据上训练的分层策略的性能,在长时程CALVIN基准测试中,实现了从头开始训练的方法中的最佳性能。
🔬 方法详解
问题定义:现有的语言条件机械臂操作分层策略,通常由高层规划器生成子目标,低层控制器执行。然而,高层规划器往往无法准确预测底层控制器的能力范围,导致生成的子目标不可行或次优,限制了整体性能。现有方法试图通过中间模块或共享表示来弥合这一差距,但它们依赖于固定的离线数据集,难以适应复杂环境和任务。
核心思路:HD-ExpIt的核心思路是通过环境反馈迭代地优化分层策略。它利用扩散模型作为规划器,自主探索成功的行为,并将这些行为提炼回分层策略中。这种自增强循环使得规划器能够逐渐了解控制器的实际能力,从而生成更可行的子目标,而控制器也能学习到更有效的执行策略。通过这种方式,HD-ExpIt隐式地将规划器与控制器的能力对齐,无需显式的代理模型。
技术框架:HD-ExpIt框架包含以下主要模块:1) 分层策略:由高层规划器和低层控制器组成,负责执行语言条件下的机械臂操作任务。2) 扩散模型规划器:利用扩散模型生成轨迹,用于探索成功的行为。3) 知识蒸馏模块:将扩散模型规划器生成的成功轨迹提炼回分层策略,更新规划器和控制器的参数。4) 环境交互模块:与环境交互,收集反馈数据,用于训练扩散模型规划器和评估分层策略的性能。整个框架通过迭代执行以下步骤进行优化:首先,利用分层策略与环境交互,收集数据。然后,利用扩散模型规划器探索新的行为。接着,将成功的行为提炼回分层策略。最后,评估分层策略的性能,并重复以上步骤。
关键创新:HD-ExpIt的关键创新在于其迭代式的On-Policy优化方法。与传统的离线训练方法不同,HD-ExpIt通过环境反馈不断改进分层策略,使其能够更好地适应环境和任务。此外,HD-ExpIt利用扩散模型作为规划器,能够更有效地探索复杂的行为空间。与现有方法相比,HD-ExpIt无需显式的代理模型,而是通过隐式的方式将规划器与控制器的能力对齐。
关键设计:HD-ExpIt的关键设计包括:1) 扩散模型规划器的训练:使用行为克隆损失函数,将分层策略生成的轨迹作为训练数据。2) 知识蒸馏模块的设计:使用交叉熵损失函数,将扩散模型规划器生成的成功轨迹作为目标,训练分层策略的规划器和控制器。3) 奖励函数的设计:根据任务目标设计奖励函数,用于评估轨迹的成功程度。4) 迭代次数和学习率的设置:通过实验调整迭代次数和学习率,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
HD-ExpIt在长时程CALVIN基准测试中取得了显著的成果。相较于其他从头开始训练的方法,HD-ExpIt实现了最佳性能,证明了其在复杂操作任务中的有效性。具体而言,HD-ExpIt在多个任务上的成功率显著高于基线方法,表明其能够更好地学习到有效的策略。
🎯 应用场景
HD-ExpIt框架具有广泛的应用前景,可应用于各种需要语言条件控制的机器人操作任务,例如家庭服务机器人、工业自动化、医疗机器人等。该研究有助于提升机器人的自主性和适应性,使其能够更好地理解人类指令并完成复杂任务,具有重要的实际价值和未来影响。
📄 摘要(原文)
Hierarchical policies for language-conditioned manipulation decompose tasks into subgoals, where a high-level planner guides a low-level controller. However, these hierarchical agents often fail because the planner generates subgoals without considering the actual limitations of the controller. Existing solutions attempt to bridge this gap via intermediate modules or shared representations, but they remain limited by their reliance on fixed offline datasets. We propose HD-ExpIt, a framework for iterative fine-tuning of hierarchical diffusion policies via environment feedback. HD-ExpIt organizes training into a self-reinforcing cycle: it utilizes diffusion-based planning to autonomously discover successful behaviors, which are then distilled back into the hierarchical policy. This loop enables both components to improve while implicitly grounding the planner in the controller's actual capabilities without requiring explicit proxy models. Empirically, HD-ExpIt significantly improves hierarchical policies trained solely on offline data, achieving state-of-the-art performance on the long-horizon CALVIN benchmark among methods trained from scratch.