Hierarchical Planning with Latent World Models

📄 arXiv: 2604.03208 📥 PDF

作者: Wancong Zhang, Basile Terver, Artem Zholus, Soham Chitnis, Harsh Sutaria, Mido Assran, Randall Balestriero, Amir Bar, Adrien Bardes, Yann LeCun, Nicolas Ballas

分类: cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出基于分层潜在世界模型的规划方法,提升长时域机器人控制性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 分层规划 潜在世界模型 模型预测控制 长时域控制 机器人控制

📋 核心要点

  1. 长时域控制任务中,学习到的世界模型面临预测误差累积和搜索空间指数增长的挑战。
  2. 论文提出分层潜在世界模型,在不同时间尺度上进行规划,降低计算复杂度并提升推理能力。
  3. 实验证明,该方法在真实机器人和模拟环境中均能提升控制成功率,并减少计算时间。

📝 摘要(中文)

本文提出了一种基于分层潜在世界模型的模型预测控制(MPC)方法,旨在解决学习到的世界模型在长时域控制中预测误差累积和搜索空间指数增长的问题。该方法通过学习多个时间尺度上的潜在世界模型,并在这些尺度上进行分层规划,从而实现长时域推理,并显著降低推理时的规划复杂度。这种分层方法作为一个模块化的规划抽象,可以应用于不同的潜在世界模型架构和领域。实验表明,该分层方法能够在真实世界的非贪婪机器人任务上实现零样本控制,仅使用最终目标规范,在抓取放置任务上实现了70%的成功率,而单层世界模型的成功率为0%。此外,在包括推箱操作和迷宫导航在内的基于物理的模拟环境中,分层规划在需要减少高达4倍的规划时间计算的同时,实现了更高的成功率。

🔬 方法详解

问题定义:现有的基于学习的世界模型的模型预测控制方法在长时域控制任务中面临两个主要问题。一是预测误差会随着时间推移而累积,导致规划结果不准确。二是搜索空间随着规划horizon的增长呈指数级增长,使得计算成本过高,难以实时应用。这些问题限制了世界模型在复杂任务中的应用。

核心思路:论文的核心思路是引入分层规划机制,通过在不同时间尺度上学习潜在世界模型,实现对环境的抽象表示。高层模型负责长时域的粗略规划,低层模型负责短时域的精细控制。这种分层结构可以有效降低规划的复杂度,并减少误差累积的影响。

技术框架:整体框架包含多个层次的潜在世界模型,每个层次对应不同的时间尺度。高层模型接收目标状态作为输入,生成一系列子目标,然后将这些子目标传递给低层模型。低层模型根据子目标生成具体的动作序列,并执行这些动作。通过迭代地进行高层规划和低层控制,最终实现对环境的有效控制。整个框架是端到端可训练的。

关键创新:该方法最重要的创新点在于将分层规划的思想引入到基于学习的世界模型的控制框架中。与传统的单层世界模型相比,分层模型能够更好地处理长时域任务,并降低计算复杂度。此外,该方法具有模块化的特点,可以应用于不同的潜在世界模型架构和领域。

关键设计:论文中使用了变分自编码器(VAE)来学习潜在世界模型。每个层次的VAE都包含一个编码器和一个解码器,编码器将环境状态映射到潜在空间,解码器将潜在向量映射回环境状态。损失函数包括重构损失和KL散度损失,用于保证潜在空间的平滑性和信息完整性。此外,论文还使用了交叉熵方法(Cross-Entropy Method, CEM)进行规划,CEM是一种基于采样的优化算法,可以有效地搜索最优的动作序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在真实机器人抓取放置任务中实现了70%的成功率,而单层世界模型的成功率为0%。在模拟环境中,分层规划在推箱操作和迷宫导航任务中取得了更高的成功率,并且计算时间减少了高达4倍。这些结果表明,该方法能够有效地提升长时域控制性能,并降低计算成本。

🎯 应用场景

该研究成果可广泛应用于机器人控制、自动驾驶、游戏AI等领域。例如,可以应用于复杂环境下的机器人导航、物体操作和任务规划。通过分层规划,机器人能够更好地理解环境,并制定更有效的行动策略。此外,该方法还可以用于训练更智能的游戏AI,使其能够更好地理解游戏规则,并制定更合理的战术。

📄 摘要(原文)

Model predictive control (MPC) with learned world models has emerged as a promising paradigm for embodied control, particularly for its ability to generalize zero-shot when deployed in new environments. However, learned world models often struggle with long-horizon control due to the accumulation of prediction errors and the exponentially growing search space. In this work, we address these challenges by learning latent world models at multiple temporal scales and performing hierarchical planning across these scales, enabling long-horizon reasoning while substantially reducing inference-time planning complexity. Our approach serves as a modular planning abstraction that applies across diverse latent world-model architectures and domains. We demonstrate that this hierarchical approach enables zero-shot control on real-world non-greedy robotic tasks, achieving a 70% success rate on pick-&-place using only a final goal specification, compared to 0% for a single-level world model. In addition, across physics-based simulated environments including push manipulation and maze navigation, hierarchical planning achieves higher success while requiring up to 4x less planning-time compute.