Discrete World Models via Regularization

📄 arXiv: 2603.01748v1 📥 PDF

作者: Davide Bizzaro, Luciano Serafini

分类: cs.LG, cs.AI

发布日期: 2026-03-02


💡 一句话要点

提出基于正则化的离散世界模型(DWMR),用于无监督布尔世界模型学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 离散表示 无监督学习 正则化 布尔变量 组合结构 潜在空间

📋 核心要点

  1. 现有世界模型依赖重构或对比学习,存在信息损失或训练困难。
  2. DWMR通过正则化潜在空间,最大化熵和独立性,并引入局部性先验。
  3. 实验表明,DWMR在组合结构环境中学习到更准确的表示和转换。

📝 摘要(中文)

世界模型旨在用紧凑的潜在空间捕获环境的状态和动态。布尔状态表示对于搜索启发式、符号推理和规划尤其有用。现有方法通过基于解码器的重构或对比/奖励信号来保持潜在变量的信息量。本文提出了一种基于正则化的离散世界模型(DWMR),这是一种无需重构且无需对比的无监督布尔世界模型学习方法。具体来说,我们引入了一种新的世界建模损失,该损失将潜在预测与专门的正则化器相结合。这些正则化器通过方差、相关性和余偏度惩罚来最大化表示位的熵和独立性,同时强制执行稀疏动作变化的局部性先验。为了实现有效的优化,我们还引入了一种新的训练方案,提高了对离散roll-out的鲁棒性。在具有底层组合结构的两个基准测试上的实验表明,DWMR学习到的表示和转换比基于重构的替代方案更准确。最后,DWMR还可以与辅助重构解码器配对,这种组合可以带来额外的收益。

🔬 方法详解

问题定义:现有世界模型学习方法,例如基于重构的方法,可能无法充分捕捉环境的离散和组合结构,导致信息损失。而对比学习方法则可能需要大量的负样本,训练成本高昂。因此,如何有效地学习具有离散表示的世界模型,尤其是在无监督的情况下,是一个挑战。

核心思路:DWMR的核心思路是通过正则化潜在空间来学习离散的世界模型。具体来说,它不依赖于重构或对比学习,而是直接优化潜在空间的属性,例如熵和独立性。通过最大化潜在变量的熵,鼓励模型探索更多的状态。通过最小化潜在变量之间的相关性和余偏度,鼓励模型学习到更独立的特征。此外,还引入了局部性先验,鼓励模型学习到与动作相关的局部变化。

技术框架:DWMR的整体框架包括一个编码器、一个潜在空间和一个预测器。编码器将环境的观测值映射到离散的潜在空间。潜在空间由一组布尔变量组成。预测器根据当前状态和动作预测下一个状态。DWMR的关键在于其损失函数,该损失函数由三部分组成:预测损失、熵正则化项和独立性正则化项。预测损失衡量预测状态与真实状态之间的差异。熵正则化项鼓励潜在变量具有较高的熵。独立性正则化项惩罚潜在变量之间的相关性和余偏度。

关键创新:DWMR的关键创新在于其正则化方法,它直接作用于潜在空间,而无需依赖于重构或对比学习。这种方法可以更有效地学习到离散的世界模型,并且对噪声和干扰具有更强的鲁棒性。此外,DWMR还引入了一种新的训练方案,提高了对离散roll-out的鲁棒性。

关键设计:DWMR的关键设计包括:1) 使用布尔变量作为潜在状态的表示;2) 使用方差、相关性和余偏度作为正则化项,以最大化熵和独立性;3) 引入局部性先验,鼓励模型学习到与动作相关的局部变化;4) 使用专门设计的训练方案,以提高对离散roll-out的鲁棒性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在两个具有底层组合结构的基准测试中,DWMR学习到的表示和转换比基于重构的替代方案更准确。具体性能数据未知。DWMR还可以与辅助重构解码器配对,进一步提升性能。实验结果表明,DWMR是一种有效的无监督布尔世界模型学习方法。

🎯 应用场景

DWMR可应用于机器人导航、游戏AI、自动驾驶等领域。通过学习环境的离散世界模型,智能体可以进行更有效的规划和决策。该方法尤其适用于具有组合结构的环境,例如迷宫、棋盘游戏等。未来,DWMR可以扩展到更复杂的环境,并与其他技术相结合,例如强化学习和模仿学习。

📄 摘要(原文)

World models aim to capture the states and dynamics of an environment in a compact latent space. Moreover, using Boolean state representations is particularly useful for search heuristics and symbolic reasoning and planning. Existing approaches keep latents informative via decoder-based reconstruction, or instead via contrastive or reward signals. In this work, we introduce Discrete World Models via Regularization (DWMR): a reconstruction-free and contrastive-free method for unsupervised Boolean world-model learning. In particular, we introduce a novel world-modeling loss that couples latent prediction with specialized regularizers. Such regularizers maximize the entropy and independence of the representation bits through variance, correlation, and coskewness penalties, while simultaneously enforcing a locality prior for sparse action changes. To enable effective optimization, we also introduce a novel training scheme improving robustness to discrete roll-outs. Experiments on two benchmarks with underlying combinatorial structure show that DWMR learns more accurate representations and transitions than reconstruction-based alternatives. Finally, DWMR can also be paired with an auxiliary reconstruction decoder, and this combination yields additional gains.