Chain of World: World Model Thinking in Latent Motion

📄 arXiv: 2603.03195v1 📥 PDF

作者: Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su, Baorui Ma

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-03-03

备注: Accepted by CVPR2026. Project page: https://fx-hit.github.io/cowvla-io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Chain-of-World VLA模型,解决具身智能中视觉动态预测与时序因果建模问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉语言动作模型 世界模型 潜在动作 时序推理

📋 核心要点

  1. 现有VLA模型忽略了视觉动态的预测性和时序因果结构,世界模型VLA重建冗余背景浪费算力,潜在动作VLA缺乏连续动态建模和世界知识。
  2. CoWVLA通过“世界链”范式,解耦视频片段为结构和运动潜在变量,学习连续潜在运动链,并与离散动作预测对齐,实现高效视觉运动学习。
  3. 在机器人仿真基准测试中,CoWVLA优于现有的世界模型和潜在动作方法,并在计算效率上表现良好,验证了其作为VLA预训练范式的潜力。

📝 摘要(中文)

本文提出了一种新的“世界链”范式CoWVLA (Chain-of-World VLA),它统一了世界模型的时序推理与解耦的潜在运动表示。首先,预训练的视频VAE作为潜在运动提取器,显式地将视频片段分解为结构和运动潜在变量。然后,在预训练期间,VLA从指令和初始帧学习推断连续的潜在运动链,并预测该片段的最终帧。最后,在协同微调期间,通过在统一的自回归解码器中联合建模稀疏关键帧和动作序列,将这种潜在动态与离散动作预测对齐。这种设计保留了世界模型在时序推理和世界知识方面的优势,同时保留了潜在动作的紧凑性和可解释性,从而实现高效的视觉运动学习。在机器人仿真基准上的大量实验表明,CoWVLA优于现有的世界模型和潜在动作方法,并实现了适度的计算效率,突显了其作为更有效的VLA预训练范式的潜力。

🔬 方法详解

问题定义:现有的Vision-Language-Action (VLA)模型在具身智能领域面临挑战,主要体现在两个方面:一是忽略了视觉动态中的预测性和时序因果关系,导致模型难以进行有效的长期规划和决策;二是现有方法要么浪费算力重建冗余背景(世界模型VLA),要么缺乏连续动态建模和世界知识(潜在动作VLA)。因此,需要一种能够兼顾时序推理、世界知识和计算效率的VLA模型。

核心思路:CoWVLA的核心思路是将世界模型的时序推理能力与解耦的潜在运动表示相结合。通过将视频片段分解为结构和运动两部分,模型可以更有效地学习和预测环境的动态变化。同时,通过学习连续的潜在运动链,模型可以更好地理解动作序列与环境变化之间的关系,从而实现更有效的视觉运动学习。这种设计旨在保留世界模型的优点(时序推理和世界知识),同时克服其缺点(计算冗余),并保留潜在动作方法的优点(紧凑性和可解释性)。

技术框架:CoWVLA的整体架构包含三个主要阶段:1) 潜在运动提取:使用预训练的视频VAE将视频片段分解为结构和运动潜在变量。2) 潜在运动链推理:VLA模型从指令和初始帧学习推断连续的潜在运动链,并预测该片段的最终帧。3) 协同微调:将潜在动态与离散动作预测对齐,通过在统一的自回归解码器中联合建模稀疏关键帧和动作序列来实现。

关键创新:CoWVLA的关键创新在于其“世界链”范式,它将世界模型的时序推理与解耦的潜在运动表示相结合。与现有方法相比,CoWVLA能够更有效地学习和预测环境的动态变化,同时保留了计算效率和可解释性。此外,通过协同微调,CoWVLA能够将潜在动态与离散动作预测对齐,从而实现更有效的视觉运动学习。

关键设计:在潜在运动提取阶段,使用了预训练的视频VAE,其具体结构和训练方式未在论文中详细描述,属于预训练模型的使用。在潜在运动链推理阶段,VLA模型需要学习从指令和初始帧到潜在运动链的映射关系,这可能涉及到特定的网络结构和损失函数的设计,例如使用Transformer结构来建模序列关系,并使用重构损失来保证预测的准确性。在协同微调阶段,使用了统一的自回归解码器来联合建模稀疏关键帧和动作序列,这可能涉及到特定的解码器结构和损失函数的设计,例如使用交叉熵损失来优化动作预测,并使用重构损失来保证关键帧的重构质量。具体的参数设置和网络结构等技术细节在论文中没有详细说明,属于实现细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoWVLA在机器人仿真基准测试中优于现有的世界模型和潜在动作方法。具体性能数据和提升幅度未在摘要中给出,但强调了CoWVLA在计算效率方面表现良好,使其成为一种更有效的VLA预训练范式。详细的实验结果需要在论文正文中查找。

🎯 应用场景

CoWVLA模型具有广泛的应用前景,可应用于机器人导航、自动驾驶、游戏AI等领域。通过学习环境的动态变化和动作序列与环境变化之间的关系,CoWVLA可以帮助机器人或智能体更好地理解和适应环境,从而实现更智能、更自主的行为。该研究的潜在价值在于提高具身智能系统的性能和效率,并为未来的智能系统设计提供新的思路。

📄 摘要(原文)

Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.