WPT: World-to-Policy Transfer via Online World Model Distillation
作者: Guangfeng Jiang, Yueru Luo, Jun Liu, Yi Huang, Yiyao Zhu, Zhan Qu, Dave Zhenyu Chen, Bingbing Liu, Xu Yan
分类: cs.CV
发布日期: 2025-11-25
💡 一句话要点
提出WPT:通过在线世界模型蒸馏实现世界到策略的迁移,提升规划性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 策略蒸馏 在线学习 端到端训练 自动驾驶 强化学习 知识迁移
📋 核心要点
- 现有世界模型方法存在运行时耦合或依赖离线奖励信号的问题,导致推理开销大或难以端到端优化。
- WPT通过在线世界模型蒸馏,将世界知识注入教师策略,再通过策略和奖励蒸馏迁移到轻量级学生策略。
- 实验表明,WPT在开放和闭环测试中均达到SOTA,且学生策略推理速度提升4.9倍,同时保持性能。
📝 摘要(中文)
近年来,世界模型在捕捉智能体行为与环境演化之间的时空相关性方面取得了显著进展。然而,现有方法通常面临运行时耦合紧密或依赖离线奖励信号的问题,导致巨大的推理开销或阻碍端到端优化。为了克服这些限制,我们提出了WPT,一种世界到策略迁移的训练范式,它能够在端到端世界模型的指导下进行在线蒸馏。具体来说,我们开发了一个可训练的奖励模型,通过将候选轨迹与世界模型预测的未来动态对齐,将世界知识注入到教师策略中。随后,我们提出策略蒸馏和世界奖励蒸馏,将教师的推理能力迁移到轻量级的学生策略中,在增强规划性能的同时保持实时部署能力。在开放循环和闭环基准测试中进行的大量实验表明,我们的WPT以简单的策略架构实现了最先进的性能:它达到了0.11的碰撞率(开放循环)和79.23的驾驶分数(闭环),在准确性和安全性方面都超过了基于世界模型和模仿学习的方法。此外,学生策略保持了高达4.9倍的推理速度提升,同时保留了大部分性能增益。
🔬 方法详解
问题定义:现有基于世界模型的强化学习方法,要么推理开销过大,难以实时部署;要么依赖离线奖励信号,无法进行端到端的优化。这限制了它们在实际复杂环境中的应用,例如自动驾驶等需要快速响应和持续学习的场景。
核心思路:WPT的核心思想是通过知识蒸馏,将一个复杂但准确的“教师”世界模型中的知识,迁移到一个轻量级的“学生”策略中。教师模型负责理解环境动态和预测未来状态,学生模型则专注于快速决策和实时控制。通过这种方式,既能利用世界模型的强大预测能力,又能保证策略的实时性。
技术框架:WPT包含以下几个主要模块:1) 世界模型:用于预测环境的未来状态。2) 可训练奖励模型:将世界模型的预测与候选轨迹对齐,为教师策略提供奖励信号。3) 教师策略:基于奖励模型进行学习,生成高质量的轨迹。4) 学生策略:通过策略蒸馏和世界奖励蒸馏,从教师策略中学习,并最终部署到实际环境中。整个训练过程是端到端的,允许学生策略直接从世界模型中学习。
关键创新:WPT的关键创新在于其在线蒸馏的训练范式。与传统的离线蒸馏不同,WPT允许学生策略在训练过程中直接与世界模型交互,从而更好地理解环境动态和学习教师策略的推理能力。此外,WPT还引入了世界奖励蒸馏,将世界模型的奖励信号也迁移到学生策略中,进一步提升了学生策略的性能。
关键设计:可训练奖励模型的设计至关重要,它需要能够准确地评估候选轨迹与世界模型预测的未来状态之间的匹配程度。策略蒸馏通常采用行为克隆或Dagger等方法,目标是让学生策略的行为尽可能接近教师策略。世界奖励蒸馏则需要设计合适的损失函数,使得学生策略能够学习到与教师策略相似的奖励信号。具体的网络结构和参数设置需要根据具体的任务进行调整。
📊 实验亮点
WPT在开放循环和闭环基准测试中均取得了显著的性能提升。在开放循环测试中,WPT的碰撞率仅为0.11,显著低于其他基于世界模型和模仿学习的方法。在闭环测试中,WPT的驾驶分数达到了79.23,同样超过了其他基线方法。更重要的是,WPT的学生策略实现了高达4.9倍的推理速度提升,同时保留了大部分的性能增益,这使得WPT更适合于实时部署。
🎯 应用场景
WPT具有广泛的应用前景,尤其是在需要实时决策和复杂环境交互的领域,如自动驾驶、机器人导航、游戏AI等。通过将世界模型的知识迁移到轻量级策略中,WPT可以实现高性能和低延迟的控制,从而提高系统的安全性、效率和鲁棒性。未来,WPT还可以与其他技术相结合,例如强化学习、模仿学习等,进一步提升其性能和泛化能力。
📄 摘要(原文)
Recent years have witnessed remarkable progress in world models, which primarily aim to capture the spatio-temporal correlations between an agent's actions and the evolving environment. However, existing approaches often suffer from tight runtime coupling or depend on offline reward signals, resulting in substantial inference overhead or hindering end-to-end optimization. To overcome these limitations, we introduce WPT, a World-to-Policy Transfer training paradigm that enables online distillation under the guidance of an end-to-end world model. Specifically, we develop a trainable reward model that infuses world knowledge into a teacher policy by aligning candidate trajectories with the future dynamics predicted by the world model. Subsequently, we propose policy distillation and world reward distillation to transfer the teacher's reasoning ability into a lightweight student policy, enhancing planning performance while preserving real-time deployability. Extensive experiments on both open-loop and closed-loop benchmarks show that our WPT achieves state-of-the-art performance with a simple policy architecture: it attains a 0.11 collision rate (open-loop) and achieves a 79.23 driving score (closed-loop) surpassing both world-model-based and imitation-learning methods in accuracy and safety. Moreover, the student sustains up to 4.9x faster inference, while retaining most of the gains.