Next Embedding Prediction Makes World Models Stronger

作者: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov

分类: cs.LG, cs.AI

发布日期: 2026-03-03

💡 一句话要点

NE-Dreamer：基于Transformer的下一嵌入预测增强世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 模型强化学习 世界模型 时间Transformer 表征学习 嵌入预测

📋 核心要点

在部分可观察、高维环境中，捕获时间依赖性对于基于模型的强化学习至关重要，现有方法难以有效建模。
NE-Dreamer通过时间Transformer预测下一步的编码器嵌入，直接优化表征空间中的时间预测对齐，无需重建损失。
实验表明，NE-Dreamer在DeepMind Control Suite和DMLab任务上表现出色，尤其在涉及记忆和空间推理的任务中提升显著。

📝 摘要（中文）

本文提出了一种名为NE-Dreamer的无解码器模型强化学习（MBRL）智能体，它利用时间Transformer从潜在状态序列中预测下一步的编码器嵌入，从而直接优化表征空间中的时间预测对齐。这种方法使NE-Dreamer能够在没有重建损失或辅助监督的情况下学习连贯的、可预测的状态表征。在DeepMind Control Suite上，NE-Dreamer的性能与DreamerV3和领先的无解码器智能体相匹配或超过。在涉及记忆和空间推理的DMLab任务的具有挑战性的子集上，NE-Dreamer取得了显著的提升。这些结果表明，使用时间Transformer进行下一步嵌入预测是复杂、部分可观察环境中MBRL的有效且可扩展的框架。

🔬 方法详解

问题定义：在基于模型的强化学习（MBRL）中，尤其是在部分可观察的环境中，如何有效地学习和利用时间依赖关系是一个关键问题。传统的MBRL方法通常依赖于解码器来重建观测，这可能引入额外的复杂性和信息损失。此外，辅助监督信号也可能限制模型的泛化能力。因此，需要一种更直接、更有效的方法来学习连贯且可预测的状态表征。

核心思路：NE-Dreamer的核心思路是通过预测下一步的嵌入（next embedding prediction）来学习状态表征，而不是像传统方法那样重建观测。这种方法直接在表征空间中优化时间预测对齐，避免了重建过程中的信息损失。使用Transformer来建模时间依赖关系，能够更好地捕捉长期的时间相关性。

技术框架：NE-Dreamer的整体框架包括一个编码器、一个时间Transformer和一个策略网络。编码器将观测映射到潜在状态空间。时间Transformer接收潜在状态序列作为输入，并预测下一步的嵌入。策略网络基于潜在状态做出决策。整个框架通过最大化累积奖励进行端到端训练。

关键创新：NE-Dreamer的关键创新在于使用时间Transformer进行下一步嵌入预测。与传统的基于解码器的MBRL方法相比，NE-Dreamer避免了重建损失，从而能够更有效地学习状态表征。此外，NE-Dreamer不需要额外的辅助监督信号，从而提高了模型的泛化能力。

关键设计：NE-Dreamer使用Transformer作为时间建模的核心组件，Transformer的输入是过去一段时间的embedding序列，输出是下一步的embedding预测。损失函数采用的是预测embedding和真实embedding之间的距离度量，例如余弦相似度或均方误差。策略网络通常是一个简单的多层感知机，输入是当前的状态embedding，输出是动作的概率分布。

🖼️ 关键图片

📊 实验亮点

NE-Dreamer在DeepMind Control Suite上取得了与DreamerV3和领先的无解码器智能体相媲美的性能。在DMLab任务的具有挑战性的子集上，NE-Dreamer取得了显著的提升，尤其是在涉及记忆和空间推理的任务中。这些结果表明，NE-Dreamer能够有效地学习状态表征，并利用时间依赖关系做出更好的决策。

🎯 应用场景

NE-Dreamer具有广泛的应用前景，例如机器人导航、游戏AI、自动驾驶等。该方法能够有效地处理部分可观察的环境，并学习长期的时间依赖关系，从而使智能体能够更好地理解和适应复杂环境。此外，NE-Dreamer的无解码器设计使其更加高效和可扩展，适用于资源受限的场景。

📄 摘要（原文）

Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.

Next Embedding Prediction Makes World Models Stronger

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理