Learning Massively Multitask World Models for Continuous Control

作者: Nicklas Hansen, Hao Su, Xiaolong Wang

分类: cs.LG, cs.CV, cs.RO

发布日期: 2025-11-24 (更新: 2025-12-02)

备注: Webpage: https://www.nicklashansen.com/NewtWM

💡 一句话要点

提出Newt：一种大规模多任务世界模型，用于连续控制任务

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多任务学习 世界模型 强化学习 连续控制 语言条件 模仿学习

📋 核心要点

现有连续控制强化学习方法难以扩展到多任务场景，在线强化学习效率较低。
Newt通过大规模多任务预训练世界模型，结合在线强化学习，提升了多任务控制性能。
实验证明Newt在多任务性能、数据效率和快速适应新任务方面优于现有方法。

📝 摘要（中文）

通用控制需要智能体能够在多个任务和环境中行动，然而，连续控制的强化学习研究仍然以单任务或离线模式为主，这强化了一种在线强化学习无法扩展的观点。受到基础模型配方（大规模预训练后进行轻量级强化学习）的启发，我们提出了一个问题：是否可以使用在线交互在数百个任务上训练单个智能体。为了加速这方面的研究，我们引入了一个新的基准，其中包含200个不同的任务，涵盖许多领域和环境，每个任务都带有语言指令、演示和可选的图像观察。然后，我们提出了Newt，一种语言条件多任务世界模型，它首先在演示上进行预训练，以获得任务感知的表示和动作先验，然后通过所有任务的在线交互进行联合优化。实验表明，Newt比一组强大的基线产生更好的多任务性能和数据效率，表现出强大的开环控制，并能够快速适应未见过的任务。我们发布了我们的环境、演示、训练和评估代码，以及200多个检查点。

🔬 方法详解

问题定义：现有连续控制强化学习方法主要集中在单任务或离线学习，难以泛化到多任务场景。在线强化学习虽然具有潜力，但由于探索空间巨大，训练效率较低，难以扩展到大规模任务。

核心思路：借鉴自然语言处理中的“基础模型”思想，即先在大规模数据上进行预训练，然后针对特定任务进行微调。Newt的核心思路是首先通过模仿学习（demonstration）预训练一个世界模型，使其具备任务感知的表示和动作先验，然后通过在线强化学习在多个任务上进行联合优化，从而提高数据效率和泛化能力。

技术框架：Newt的整体框架包含两个主要阶段：预训练阶段和在线强化学习阶段。在预训练阶段，Newt使用大量的演示数据学习一个语言条件的世界模型，该模型能够根据语言指令预测环境的未来状态和奖励。在在线强化学习阶段，Newt使用预训练的世界模型作为环境的模拟器，通过与模拟环境的交互来学习策略，并使用真实环境的数据进行微调。

关键创新：Newt的关键创新在于将世界模型与多任务强化学习相结合，并利用语言指令作为任务的通用接口。通过预训练世界模型，Newt能够学习到任务无关的通用表示，从而提高数据效率和泛化能力。语言指令的使用使得Newt能够处理各种不同的任务，并实现零样本迁移。

关键设计：Newt使用Transformer架构作为世界模型的主干网络，并采用对比学习的方式来学习任务感知的表示。在在线强化学习阶段，Newt使用PPO算法进行策略优化，并使用TD-lambda算法进行价值函数估计。损失函数包括世界模型的预测损失、策略的奖励损失和价值函数的TD误差。

📊 实验亮点

实验结果表明，Newt在包含200个不同任务的基准测试中，显著优于现有的多任务强化学习方法。Newt在多任务性能和数据效率方面均取得了显著提升，并且能够快速适应未见过的任务。此外，Newt还表现出强大的开环控制能力。

🎯 应用场景

该研究成果可应用于机器人通用控制、游戏AI、自动驾驶等领域。通过学习大规模多任务世界模型，可以使智能体具备更强的泛化能力和适应性，从而更好地应对复杂多变的环境。未来，该技术有望推动人工智能在实际场景中的广泛应用。

📄 摘要（原文）

General-purpose control demands agents that act across many tasks and embodiments, yet research on reinforcement learning (RL) for continuous control remains dominated by single-task or offline regimes, reinforcing a view that online RL does not scale. Inspired by the foundation model recipe (large-scale pretraining followed by light RL) we ask whether a single agent can be trained on hundreds of tasks with online interaction. To accelerate research in this direction, we introduce a new benchmark with 200 diverse tasks spanning many domains and embodiments, each with language instructions, demonstrations, and optionally image observations. We then present \emph{Newt}, a language-conditioned multitask world model that is first pretrained on demonstrations to acquire task-aware representations and action priors, and then jointly optimized with online interaction across all tasks. Experiments show that Newt yields better multitask performance and data-efficiency than a set of strong baselines, exhibits strong open-loop control, and enables rapid adaptation to unseen tasks. We release our environments, demonstrations, code for training and evaluation, as well as 200+ checkpoints.

Learning Massively Multitask World Models for Continuous Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册