Learning Massively Multitask World Models for Continuous Control
作者: Nicklas Hansen, Hao Su, Xiaolong Wang
分类: cs.LG, cs.CV, cs.RO
发布日期: 2025-11-24 (更新: 2025-12-02)
备注: Webpage: https://www.nicklashansen.com/NewtWM
💡 一句话要点
提出Newt:一种大规模多任务世界模型,用于连续控制任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多任务学习 世界模型 强化学习 连续控制 语言条件 模仿学习
📋 核心要点
- 现有连续控制强化学习方法难以扩展到多任务场景,在线强化学习效率较低。
- Newt通过大规模多任务预训练世界模型,结合在线强化学习,提升了多任务控制性能。
- 实验证明Newt在多任务性能、数据效率和快速适应新任务方面优于现有方法。
📝 摘要(中文)
通用控制需要智能体能够在多个任务和环境中行动,然而,连续控制的强化学习研究仍然以单任务或离线模式为主,这强化了一种在线强化学习无法扩展的观点。受到基础模型配方(大规模预训练后进行轻量级强化学习)的启发,我们提出了一个问题:是否可以使用在线交互在数百个任务上训练单个智能体。为了加速这方面的研究,我们引入了一个新的基准,其中包含200个不同的任务,涵盖许多领域和环境,每个任务都带有语言指令、演示和可选的图像观察。然后,我们提出了Newt,一种语言条件多任务世界模型,它首先在演示上进行预训练,以获得任务感知的表示和动作先验,然后通过所有任务的在线交互进行联合优化。实验表明,Newt比一组强大的基线产生更好的多任务性能和数据效率,表现出强大的开环控制,并能够快速适应未见过的任务。我们发布了我们的环境、演示、训练和评估代码,以及200多个检查点。
🔬 方法详解
问题定义:现有连续控制强化学习方法主要集中在单任务或离线学习,难以泛化到多任务场景。在线强化学习虽然具有潜力,但由于探索空间巨大,训练效率较低,难以扩展到大规模任务。
核心思路:借鉴自然语言处理中的“基础模型”思想,即先在大规模数据上进行预训练,然后针对特定任务进行微调。Newt的核心思路是首先通过模仿学习(demonstration)预训练一个世界模型,使其具备任务感知的表示和动作先验,然后通过在线强化学习在多个任务上进行联合优化,从而提高数据效率和泛化能力。
技术框架:Newt的整体框架包含两个主要阶段:预训练阶段和在线强化学习阶段。在预训练阶段,Newt使用大量的演示数据学习一个语言条件的世界模型,该模型能够根据语言指令预测环境的未来状态和奖励。在在线强化学习阶段,Newt使用预训练的世界模型作为环境的模拟器,通过与模拟环境的交互来学习策略,并使用真实环境的数据进行微调。
关键创新:Newt的关键创新在于将世界模型与多任务强化学习相结合,并利用语言指令作为任务的通用接口。通过预训练世界模型,Newt能够学习到任务无关的通用表示,从而提高数据效率和泛化能力。语言指令的使用使得Newt能够处理各种不同的任务,并实现零样本迁移。
关键设计:Newt使用Transformer架构作为世界模型的主干网络,并采用对比学习的方式来学习任务感知的表示。在在线强化学习阶段,Newt使用PPO算法进行策略优化,并使用TD-lambda算法进行价值函数估计。损失函数包括世界模型的预测损失、策略的奖励损失和价值函数的TD误差。
📊 实验亮点
实验结果表明,Newt在包含200个不同任务的基准测试中,显著优于现有的多任务强化学习方法。Newt在多任务性能和数据效率方面均取得了显著提升,并且能够快速适应未见过的任务。此外,Newt还表现出强大的开环控制能力。
🎯 应用场景
该研究成果可应用于机器人通用控制、游戏AI、自动驾驶等领域。通过学习大规模多任务世界模型,可以使智能体具备更强的泛化能力和适应性,从而更好地应对复杂多变的环境。未来,该技术有望推动人工智能在实际场景中的广泛应用。
📄 摘要(原文)
General-purpose control demands agents that act across many tasks and embodiments, yet research on reinforcement learning (RL) for continuous control remains dominated by single-task or offline regimes, reinforcing a view that online RL does not scale. Inspired by the foundation model recipe (large-scale pretraining followed by light RL) we ask whether a single agent can be trained on hundreds of tasks with online interaction. To accelerate research in this direction, we introduce a new benchmark with 200 diverse tasks spanning many domains and embodiments, each with language instructions, demonstrations, and optionally image observations. We then present \emph{Newt}, a language-conditioned multitask world model that is first pretrained on demonstrations to acquire task-aware representations and action priors, and then jointly optimized with online interaction across all tasks. Experiments show that Newt yields better multitask performance and data-efficiency than a set of strong baselines, exhibits strong open-loop control, and enables rapid adaptation to unseen tasks. We release our environments, demonstrations, code for training and evaluation, as well as 200+ checkpoints.