MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation

📄 arXiv: 2509.21797v2 📥 PDF

作者: Yu Shang, Yangcheng Yu, Xin Zhang, Xin Jin, Haisheng Su, Wei Wu, Yong Li

分类: cs.CV

发布日期: 2025-09-26 (更新: 2025-09-30)

备注: 11 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MoWM:一种混合世界模型的具身规划方法,通过潜在到像素特征调制提升性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 具身智能 世界模型 动作规划 混合模型 特征调制 机器人学习 CALVIN基准

📋 核心要点

  1. 现有基于像素重建的世界模型存在视觉冗余,影响动作解码和泛化能力。
  2. MoWM融合潜在空间和像素空间世界模型,利用潜在模型引导像素特征提取,突出关键视觉细节。
  3. 在CALVIN基准测试中,MoWM取得了SOTA的任务成功率,并展现出更强的泛化能力。

📝 摘要(中文)

具身动作规划是机器人领域的核心挑战,它要求模型能够从视觉观察和语言指令中生成精确的动作。视频生成世界模型很有前景,但它们对像素级重建的依赖引入了视觉冗余,阻碍了动作解码和泛化。潜在世界模型提供了一种紧凑的、运动感知的表示,但忽略了精确操作所需的细粒度细节。为了克服这些限制,我们提出了MoWM,一个混合世界模型框架,融合了来自混合世界模型的表示,用于具身动作规划。我们的方法使用来自潜在模型的运动感知表示作为高层先验,指导从像素空间模型中提取细粒度的视觉特征。这种设计允许MoWM突出显示动作解码所需的有用视觉细节。在CALVIN基准上的大量评估表明,我们的方法实现了最先进的任务成功率和卓越的泛化能力。我们还对每个特征空间的优势进行了全面分析,为具身规划的未来研究提供了宝贵的见解。代码已公开。

🔬 方法详解

问题定义:具身动作规划旨在让机器人根据视觉输入和语言指令执行精确动作。现有基于像素重建的世界模型虽然能生成逼真的视频,但由于视觉冗余,难以提取有效的动作信息,泛化能力受限。而潜在世界模型虽然紧凑,却丢失了像素级别的细节信息,影响操作精度。

核心思路:MoWM的核心思想是结合潜在世界模型和像素世界模型的优势。利用潜在世界模型学习到的运动感知的高层抽象表示,作为先验知识,指导像素世界模型提取细粒度的视觉特征。通过这种方式,既能保留关键的像素细节,又能避免视觉冗余,从而提升动作规划的精度和泛化能力。

技术框架:MoWM框架包含两个主要的世界模型分支:一个潜在世界模型和一个像素世界模型。潜在世界模型负责学习环境的抽象表示和运动规律,生成运动感知的潜在特征。像素世界模型负责从原始像素输入中提取细粒度的视觉特征。然后,利用潜在特征对像素特征进行调制,突出与动作相关的关键视觉信息。最后,将调制后的特征输入到动作解码器中,生成最终的动作指令。

关键创新:MoWM的关键创新在于提出了混合世界模型的架构,并设计了潜在到像素的特征调制机制。这种机制能够有效地融合来自不同特征空间的表示,既保留了高层语义信息,又避免了像素级别的冗余。通过这种方式,MoWM能够更好地提取与动作相关的关键视觉特征,从而提升动作规划的性能。

关键设计:MoWM使用了变分自编码器(VAE)作为潜在世界模型,学习环境的潜在表示。像素世界模型使用了卷积神经网络(CNN)提取视觉特征。特征调制机制通过注意力机制实现,利用潜在特征作为query,像素特征作为key和value,计算注意力权重,从而突出与潜在特征相关的像素特征。损失函数包括重构损失、KL散度和动作预测损失,用于训练整个模型。

📊 实验亮点

MoWM在CALVIN基准测试中取得了显著的成果,在多个任务上超越了现有的SOTA方法。具体来说,MoWM在任务成功率上取得了显著提升,并且展现出更强的泛化能力,能够在未见过的场景中执行复杂的任务。实验结果表明,MoWM能够有效地融合来自不同特征空间的表示,提取与动作相关的关键视觉特征。

🎯 应用场景

MoWM在机器人具身智能领域具有广泛的应用前景,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。它可以帮助机器人更好地理解环境,执行复杂的任务,提高工作效率和安全性。未来,MoWM还可以扩展到其他领域,例如自动驾驶、虚拟现实等。

📄 摘要(原文)

Embodied action planning is a core challenge in robotics, requiring models to generate precise actions from visual observations and language instructions. While video generation world models are promising, their reliance on pixel-level reconstruction often introduces visual redundancies that hinder action decoding and generalization. Latent world models offer a compact, motion-aware representation, but overlook the fine-grained details critical for precise manipulation. To overcome these limitations, we propose MoWM, a mixture-of-world-model framework that fuses representations from hybrid world models for embodied action planning. Our approach uses motion-aware representations from a latent model as a high-level prior, which guides the extraction of fine-grained visual features from the pixel space model. This design allows MoWM to highlight the informative visual details needed for action decoding. Extensive evaluations on the CALVIN benchmark demonstrate that our method achieves state-of-the-art task success rates and superior generalization. We also provide a comprehensive analysis of the strengths of each feature space, offering valuable insights for future research in embodied planning. The code is available at: https://github.com/tsinghua-fib-lab/MoWM.