World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

📄 arXiv: 2604.01985v1 📥 PDF

作者: Yuejiang Liu, Fan Feng, Lingjing Kong, Weifeng Lu, Jinzhou Tang, Kun Zhang, Kevin Murphy, Chelsea Finn, Yilun Du

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-04-02

备注: Project Website: https://world-action-verifier.github.io


💡 一句话要点

提出世界行动验证器(WAV),通过前向-逆向不对称性自提升世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 前向-逆向不对称性 自监督学习 循环一致性 状态预测

📋 核心要点

  1. 世界模型需要覆盖更广泛的次优动作,而现有方法在处理动作标签数据不足时面临挑战。
  2. WAV通过分解状态预测为状态合理性和动作可达性,并利用前向-逆向不对称性进行验证,实现自提升。
  3. 实验表明,WAV在多个任务中显著提高了样本效率和下游策略性能,验证了其有效性。

📝 摘要(中文)

通用的世界模型有望实现可扩展的策略评估、优化和规划,但达到所需的鲁棒性仍然具有挑战。与主要关注最优动作的策略学习不同,世界模型必须在更广泛的次优动作范围内保持可靠性,而这些动作通常在带有动作标签的交互数据中覆盖不足。为了解决这个问题,我们提出了世界行动验证器(WAV),该框架使世界模型能够识别自身的预测误差并进行自我改进。关键思想是将动作条件状态预测分解为两个因素——状态合理性和动作可达性——并分别验证每个因素。我们表明,由于两种潜在的不对称性:更广泛的无动作数据的可用性和动作相关特征的较低维度,这些验证问题可能比预测未来状态更容易。利用这些不对称性,我们使用(i)从视频语料库获得的多样化子目标生成器和(ii)从状态特征子集推断动作的稀疏逆模型来增强世界模型。通过在生成的子目标、推断的动作和前向展开之间强制执行循环一致性,WAV在现有方法通常失败的未充分探索的区域中提供了一种有效的验证机制。在涵盖MiniGrid、RoboMimic和ManiSkill的九项任务中,我们的方法实现了2倍更高的样本效率,同时将下游策略性能提高了18%。

🔬 方法详解

问题定义:论文旨在解决世界模型在次优动作范围内预测不准确的问题。现有世界模型主要依赖于带有动作标签的交互数据进行训练,然而这些数据往往无法充分覆盖所有可能的次优动作,导致模型在这些区域的预测能力不足。这限制了世界模型在策略评估、优化和规划等方面的应用。

核心思路:论文的核心思路是将动作条件状态预测分解为两个独立的因素:状态合理性(state plausibility)和动作可达性(action reachability)。状态合理性评估预测的状态是否符合环境的物理规律和常识,而动作可达性评估从当前状态执行某个动作是否能够到达预测的状态。通过分别验证这两个因素,可以更有效地识别世界模型的预测误差。

技术框架:WAV框架主要包含以下几个模块:1) 世界模型:负责进行状态预测;2) 子目标生成器:从视频语料库中学习生成多样化的子目标,用于探索未充分覆盖的状态空间;3) 逆模型:从状态特征子集推断动作,用于验证动作的可达性;4) 循环一致性验证:通过强制执行生成的子目标、逆模型推断的动作和世界模型的前向展开之间的循环一致性,来检测和纠正预测误差。

关键创新:WAV的关键创新在于利用了前向-逆向不对称性。具体来说,论文指出,状态合理性的验证可以利用大量的无动作数据(例如视频),而动作可达性的验证可以利用动作相关特征的低维度性。这使得验证问题比直接预测未来状态更容易。此外,WAV通过循环一致性验证,能够有效地探索未充分覆盖的状态空间,从而提高世界模型的泛化能力。

关键设计:子目标生成器从大规模视频数据中学习,生成多样化的、可能的状态作为子目标。逆模型是一个稀疏模型,只关注与动作相关的状态特征,从而降低了学习难度。循环一致性损失函数鼓励生成的子目标、逆模型推断的动作和世界模型的前向展开之间保持一致,从而提高预测的准确性。具体的损失函数形式和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WAV在MiniGrid、RoboMimic和ManiSkill等九个任务中,实现了2倍更高的样本效率,同时将下游策略性能提高了18%。这些结果表明,WAV能够有效地提高世界模型的预测精度和泛化能力,从而提升下游任务的性能。与现有方法相比,WAV在探索未充分覆盖的状态空间方面具有显著优势。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过提高世界模型的预测精度和泛化能力,可以使智能体在复杂环境中更好地进行决策和规划。例如,在机器人导航中,WAV可以帮助机器人更准确地预测未来的状态,从而避免碰撞和实现更高效的路径规划。在游戏AI中,WAV可以使AI角色更智能地与环境互动,提供更逼真的游戏体验。

📄 摘要(原文)

General-purpose world models promise scalable policy evaluation, optimization, and planning, yet achieving the required level of robustness remains challenging. Unlike policy learning, which primarily focuses on optimal actions, a world model must be reliable over a much broader range of suboptimal actions, which are often insufficiently covered by action-labeled interaction data. To address this challenge, we propose World Action Verifier (WAV), a framework that enables world models to identify their own prediction errors and self-improve. The key idea is to decompose action-conditioned state prediction into two factors -- state plausibility and action reachability -- and verify each separately. We show that these verification problems can be substantially easier than predicting future states due to two underlying asymmetries: the broader availability of action-free data and the lower dimensionality of action-relevant features. Leveraging these asymmetries, we augment a world model with (i) a diverse subgoal generator obtained from video corpora and (ii) a sparse inverse model that infers actions from a subset of state features. By enforcing cycle consistency among generated subgoals, inferred actions, and forward rollouts, WAV provides an effective verification mechanism in under-explored regimes, where existing methods typically fail. Across nine tasks spanning MiniGrid, RoboMimic, and ManiSkill, our method achieves 2x higher sample efficiency while improving downstream policy performance by 18%.