From Code to Action: Hierarchical Learning of Diffusion-VLM Policies
作者: Markus Peschl, Pietro Mazzaglia, Daniel Dijkman
分类: cs.RO, cs.LG
发布日期: 2025-09-29
备注: 19 pages including references, 6 figures. Accepted to CoRL LEAP 2025
💡 一句话要点
提出基于扩散-VLM策略的分层模仿学习框架,提升机器人操作的泛化性和数据效率
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 模仿学习 视觉语言模型 扩散模型 分层策略 代码生成 非马尔可夫决策过程
📋 核心要点
- 机器人操作的模仿学习面临泛化能力有限和数据稀缺的挑战,尤其是在复杂的长时程任务中。
- 论文提出一种分层框架,利用VLM生成代码并结合扩散策略,将任务分解为可执行的子程序,提升泛化能力。
- 该方法通过实验验证了其有效性,实现了可解释的策略分解,并提高了泛化能力,同时支持对高级规划和低级控制的独立评估。
📝 摘要(中文)
本文提出了一种分层框架,该框架利用代码生成的视觉语言模型(VLM)与低级扩散策略相结合,以有效地模仿和泛化机器人行为。核心思想是将开源机器人API不仅视为执行接口,还视为结构化监督的来源:相关的子任务函数(如果公开)可以作为模块化、语义上有意义的标签。我们训练VLM将任务描述分解为可执行的子程序,然后通过训练扩散策略来模仿相应的机器人行为,从而将这些子程序落地执行。为了处理代码执行和某些现实世界任务(如对象交换)的非马尔可夫性质,我们的架构包含一种记忆机制,该机制可以跨时间维护子任务上下文。我们发现,这种设计能够实现可解释的策略分解,与扁平策略相比提高了泛化能力,并能够对高级规划和低级控制进行单独评估。
🔬 方法详解
问题定义:机器人操作的模仿学习通常受限于泛化能力和数据量。尤其是在长时程任务中,数据稀缺问题更加突出。现有的扁平策略难以处理复杂的任务分解和非马尔可夫决策过程,导致泛化能力不足。
核心思路:论文的核心思路是将任务分解为可执行的子程序,并利用视觉语言模型(VLM)生成这些子程序对应的代码。然后,通过扩散策略学习低级别的机器人控制,将这些代码指令转化为具体的动作。这种分层结构使得策略更易于理解和泛化,同时利用了开源机器人API提供的结构化信息。
技术框架:整体框架包含两个主要模块:1) VLM代码生成器:将任务描述作为输入,生成一系列可执行的子程序代码。这些代码对应于机器人API中的函数调用。2) 扩散策略控制器:接收VLM生成的代码作为输入,并生成相应的机器人动作。为了处理非马尔可夫性,框架还包含一个记忆模块,用于维护子任务的上下文信息。整体流程是,首先VLM根据任务描述生成代码序列,然后扩散策略根据当前代码和历史信息生成动作,执行动作后更新记忆模块,并重复此过程直到任务完成。
关键创新:最重要的创新点在于利用VLM将任务分解为可执行的代码,并将开源机器人API作为结构化监督信号。这种方法将高级规划和低级控制解耦,使得策略更易于理解和泛化。与传统的扁平策略相比,该方法能够更好地处理复杂的任务和非马尔可夫决策过程。
关键设计:VLM使用预训练的视觉语言模型,并针对机器人操作任务进行微调。扩散策略使用条件扩散模型,以VLM生成的代码和记忆模块的输出作为条件。损失函数包括模仿学习损失和正则化项,用于提高策略的稳定性和泛化能力。记忆模块可以使用LSTM或Transformer等序列模型实现,用于存储和更新子任务的上下文信息。
📊 实验亮点
实验结果表明,该方法在机器人操作任务中取得了显著的性能提升。与扁平策略相比,该方法能够更好地泛化到新的任务和环境。此外,该方法还实现了可解释的策略分解,使得用户可以更容易地理解和调试机器人策略。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于各种机器人操作任务,例如自动化装配、物流分拣、家庭服务机器人等。通过利用VLM和扩散策略,可以降低机器人编程的难度,提高机器人的自主性和适应性。未来,该方法有望应用于更复杂的环境和任务,例如灾难救援、太空探索等。
📄 摘要(原文)
Imitation learning for robotic manipulation often suffers from limited generalization and data scarcity, especially in complex, long-horizon tasks. In this work, we introduce a hierarchical framework that leverages code-generating vision-language models (VLMs) in combination with low-level diffusion policies to effectively imitate and generalize robotic behavior. Our key insight is to treat open-source robotic APIs not only as execution interfaces but also as sources of structured supervision: the associated subtask functions - when exposed - can serve as modular, semantically meaningful labels. We train a VLM to decompose task descriptions into executable subroutines, which are then grounded through a diffusion policy trained to imitate the corresponding robot behavior. To handle the non-Markovian nature of both code execution and certain real-world tasks, such as object swapping, our architecture incorporates a memory mechanism that maintains subtask context across time. We find that this design enables interpretable policy decomposition, improves generalization when compared to flat policies and enables separate evaluation of high-level planning and low-level control.