From Code to Action: Hierarchical Learning of Diffusion-VLM Policies

作者: Markus Peschl, Pietro Mazzaglia, Daniel Dijkman

分类: cs.RO, cs.LG

发布日期: 2025-09-29

备注: 19 pages including references, 6 figures. Accepted to CoRL LEAP 2025

💡 一句话要点

提出基于扩散-VLM策略的分层模仿学习框架，提升机器人操作的泛化性和数据效率

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 模仿学习 视觉语言模型 扩散模型 分层策略 代码生成 非马尔可夫决策过程

📋 核心要点

机器人操作的模仿学习面临泛化能力有限和数据稀缺的挑战，尤其是在复杂的长时程任务中。
论文提出一种分层框架，利用VLM生成代码并结合扩散策略，将任务分解为可执行的子程序，提升泛化能力。
该方法通过实验验证了其有效性，实现了可解释的策略分解，并提高了泛化能力，同时支持对高级规划和低级控制的独立评估。

📝 摘要（中文）

本文提出了一种分层框架，该框架利用代码生成的视觉语言模型（VLM）与低级扩散策略相结合，以有效地模仿和泛化机器人行为。核心思想是将开源机器人API不仅视为执行接口，还视为结构化监督的来源：相关的子任务函数（如果公开）可以作为模块化、语义上有意义的标签。我们训练VLM将任务描述分解为可执行的子程序，然后通过训练扩散策略来模仿相应的机器人行为，从而将这些子程序落地执行。为了处理代码执行和某些现实世界任务（如对象交换）的非马尔可夫性质，我们的架构包含一种记忆机制，该机制可以跨时间维护子任务上下文。我们发现，这种设计能够实现可解释的策略分解，与扁平策略相比提高了泛化能力，并能够对高级规划和低级控制进行单独评估。

🔬 方法详解

问题定义：机器人操作的模仿学习通常受限于泛化能力和数据量。尤其是在长时程任务中，数据稀缺问题更加突出。现有的扁平策略难以处理复杂的任务分解和非马尔可夫决策过程，导致泛化能力不足。

核心思路：论文的核心思路是将任务分解为可执行的子程序，并利用视觉语言模型（VLM）生成这些子程序对应的代码。然后，通过扩散策略学习低级别的机器人控制，将这些代码指令转化为具体的动作。这种分层结构使得策略更易于理解和泛化，同时利用了开源机器人API提供的结构化信息。

技术框架：整体框架包含两个主要模块：1) VLM代码生成器：将任务描述作为输入，生成一系列可执行的子程序代码。这些代码对应于机器人API中的函数调用。2) 扩散策略控制器：接收VLM生成的代码作为输入，并生成相应的机器人动作。为了处理非马尔可夫性，框架还包含一个记忆模块，用于维护子任务的上下文信息。整体流程是，首先VLM根据任务描述生成代码序列，然后扩散策略根据当前代码和历史信息生成动作，执行动作后更新记忆模块，并重复此过程直到任务完成。

关键创新：最重要的创新点在于利用VLM将任务分解为可执行的代码，并将开源机器人API作为结构化监督信号。这种方法将高级规划和低级控制解耦，使得策略更易于理解和泛化。与传统的扁平策略相比，该方法能够更好地处理复杂的任务和非马尔可夫决策过程。

关键设计：VLM使用预训练的视觉语言模型，并针对机器人操作任务进行微调。扩散策略使用条件扩散模型，以VLM生成的代码和记忆模块的输出作为条件。损失函数包括模仿学习损失和正则化项，用于提高策略的稳定性和泛化能力。记忆模块可以使用LSTM或Transformer等序列模型实现，用于存储和更新子任务的上下文信息。

📊 实验亮点

实验结果表明，该方法在机器人操作任务中取得了显著的性能提升。与扁平策略相比，该方法能够更好地泛化到新的任务和环境。此外，该方法还实现了可解释的策略分解，使得用户可以更容易地理解和调试机器人策略。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如自动化装配、物流分拣、家庭服务机器人等。通过利用VLM和扩散策略，可以降低机器人编程的难度，提高机器人的自主性和适应性。未来，该方法有望应用于更复杂的环境和任务，例如灾难救援、太空探索等。

📄 摘要（原文）

Imitation learning for robotic manipulation often suffers from limited generalization and data scarcity, especially in complex, long-horizon tasks. In this work, we introduce a hierarchical framework that leverages code-generating vision-language models (VLMs) in combination with low-level diffusion policies to effectively imitate and generalize robotic behavior. Our key insight is to treat open-source robotic APIs not only as execution interfaces but also as sources of structured supervision: the associated subtask functions - when exposed - can serve as modular, semantically meaningful labels. We train a VLM to decompose task descriptions into executable subroutines, which are then grounded through a diffusion policy trained to imitate the corresponding robot behavior. To handle the non-Markovian nature of both code execution and certain real-world tasks, such as object swapping, our architecture incorporates a memory mechanism that maintains subtask context across time. We find that this design enables interpretable policy decomposition, improves generalization when compared to flat policies and enables separate evaluation of high-level planning and low-level control.

From Code to Action: Hierarchical Learning of Diffusion-VLM Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册