Discrete World Models via Regularization

作者: Davide Bizzaro, Luciano Serafini

分类: cs.LG, cs.AI

发布日期: 2026-03-02

💡 一句话要点

提出基于正则化的离散世界模型(DWMR)，用于无监督布尔世界模型学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 离散表示 无监督学习 正则化 布尔变量 组合结构 潜在空间

📋 核心要点

现有世界模型依赖重构或对比学习，存在信息损失或训练困难。
DWMR通过正则化潜在空间，最大化熵和独立性，并引入局部性先验。
实验表明，DWMR在组合结构环境中学习到更准确的表示和转换。

📝 摘要（中文）

世界模型旨在用紧凑的潜在空间捕获环境的状态和动态。布尔状态表示对于搜索启发式、符号推理和规划尤其有用。现有方法通过基于解码器的重构或对比/奖励信号来保持潜在变量的信息量。本文提出了一种基于正则化的离散世界模型(DWMR)，这是一种无需重构且无需对比的无监督布尔世界模型学习方法。具体来说，我们引入了一种新的世界建模损失，该损失将潜在预测与专门的正则化器相结合。这些正则化器通过方差、相关性和余偏度惩罚来最大化表示位的熵和独立性，同时强制执行稀疏动作变化的局部性先验。为了实现有效的优化，我们还引入了一种新的训练方案，提高了对离散roll-out的鲁棒性。在具有底层组合结构的两个基准测试上的实验表明，DWMR学习到的表示和转换比基于重构的替代方案更准确。最后，DWMR还可以与辅助重构解码器配对，这种组合可以带来额外的收益。

🔬 方法详解

问题定义：现有世界模型学习方法，例如基于重构的方法，可能无法充分捕捉环境的离散和组合结构，导致信息损失。而对比学习方法则可能需要大量的负样本，训练成本高昂。因此，如何有效地学习具有离散表示的世界模型，尤其是在无监督的情况下，是一个挑战。

核心思路：DWMR的核心思路是通过正则化潜在空间来学习离散的世界模型。具体来说，它不依赖于重构或对比学习，而是直接优化潜在空间的属性，例如熵和独立性。通过最大化潜在变量的熵，鼓励模型探索更多的状态。通过最小化潜在变量之间的相关性和余偏度，鼓励模型学习到更独立的特征。此外，还引入了局部性先验，鼓励模型学习到与动作相关的局部变化。

技术框架：DWMR的整体框架包括一个编码器、一个潜在空间和一个预测器。编码器将环境的观测值映射到离散的潜在空间。潜在空间由一组布尔变量组成。预测器根据当前状态和动作预测下一个状态。DWMR的关键在于其损失函数，该损失函数由三部分组成：预测损失、熵正则化项和独立性正则化项。预测损失衡量预测状态与真实状态之间的差异。熵正则化项鼓励潜在变量具有较高的熵。独立性正则化项惩罚潜在变量之间的相关性和余偏度。

关键创新：DWMR的关键创新在于其正则化方法，它直接作用于潜在空间，而无需依赖于重构或对比学习。这种方法可以更有效地学习到离散的世界模型，并且对噪声和干扰具有更强的鲁棒性。此外，DWMR还引入了一种新的训练方案，提高了对离散roll-out的鲁棒性。

关键设计：DWMR的关键设计包括：1) 使用布尔变量作为潜在状态的表示；2) 使用方差、相关性和余偏度作为正则化项，以最大化熵和独立性；3) 引入局部性先验，鼓励模型学习到与动作相关的局部变化；4) 使用专门设计的训练方案，以提高对离散roll-out的鲁棒性。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

在两个具有底层组合结构的基准测试中，DWMR学习到的表示和转换比基于重构的替代方案更准确。具体性能数据未知。DWMR还可以与辅助重构解码器配对，进一步提升性能。实验结果表明，DWMR是一种有效的无监督布尔世界模型学习方法。

🎯 应用场景

DWMR可应用于机器人导航、游戏AI、自动驾驶等领域。通过学习环境的离散世界模型，智能体可以进行更有效的规划和决策。该方法尤其适用于具有组合结构的环境，例如迷宫、棋盘游戏等。未来，DWMR可以扩展到更复杂的环境，并与其他技术相结合，例如强化学习和模仿学习。

📄 摘要（原文）

World models aim to capture the states and dynamics of an environment in a compact latent space. Moreover, using Boolean state representations is particularly useful for search heuristics and symbolic reasoning and planning. Existing approaches keep latents informative via decoder-based reconstruction, or instead via contrastive or reward signals. In this work, we introduce Discrete World Models via Regularization (DWMR): a reconstruction-free and contrastive-free method for unsupervised Boolean world-model learning. In particular, we introduce a novel world-modeling loss that couples latent prediction with specialized regularizers. Such regularizers maximize the entropy and independence of the representation bits through variance, correlation, and coskewness penalties, while simultaneously enforcing a locality prior for sparse action changes. To enable effective optimization, we also introduce a novel training scheme improving robustness to discrete roll-outs. Experiments on two benchmarks with underlying combinatorial structure show that DWMR learns more accurate representations and transitions than reconstruction-based alternatives. Finally, DWMR can also be paired with an auxiliary reconstruction decoder, and this combination yields additional gains.

Discrete World Models via Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理