VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

📄 arXiv: 2601.05138v1 📥 PDF

作者: Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu

分类: cs.CV

发布日期: 2026-01-08

备注: Project Page: https://sixiaozheng.github.io/VerseCrafter_page/


💡 一句话要点

VerseCrafter:提出基于4D几何控制的动态真实视频世界模型,实现精确的相机和物体运动控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 4D几何控制 视频生成 扩散模型 运动控制 数据引擎 三维重建

📋 核心要点

  1. 现有视频世界模型难以在统一框架下精确控制相机和多物体的运动,限制了其真实感和可控性。
  2. VerseCrafter通过引入4D几何控制表示,利用静态背景点云和3D高斯轨迹来编码场景动态,实现对相机和物体运动的精确控制。
  3. 该方法通过自动数据引擎从真实视频中提取4D控制信息,解决了训练数据稀缺问题,并生成了高质量、视角一致的视频。

📝 摘要(中文)

视频世界模型旨在模拟动态的真实世界环境,但现有方法难以对相机和多物体运动提供统一且精确的控制,因为视频固有的动态性体现在2D图像平面上。为了弥合这一差距,我们提出了VerseCrafter,一个4D感知的视频世界模型,它能够在统一的4D几何世界状态中,对相机和物体动态进行显式和连贯的控制。我们的方法以一种新颖的4D几何控制表示为中心,该表示通过静态背景点云和每个物体的3D高斯轨迹来编码世界状态。这种表示不仅捕获了物体的路径,还捕获了其随时间的概率3D占用,为刚性边界框或参数模型提供了一种灵活的、类别无关的替代方案。这些4D控制被渲染成预训练视频扩散模型的条件信号,从而能够生成高保真、视角一致且精确遵循指定动态的视频。此外,缺乏具有显式4D注释的大规模训练数据也是一个主要挑战。我们通过开发一个自动数据引擎来解决这个问题,该引擎从真实视频中提取所需的4D控制,从而使我们能够在海量且多样化的数据集上训练我们的模型。

🔬 方法详解

问题定义:现有视频世界模型在控制相机和场景中多个物体的运动方面存在困难。视频数据本质上是2D图像的序列,缺乏对3D空间中物体运动的直接表示和控制。现有方法通常使用刚性边界框或参数模型来近似物体运动,但这些方法缺乏灵活性,难以捕捉复杂和非刚性的运动。

核心思路:VerseCrafter的核心思路是将视频世界建模为一个4D几何空间,其中包含静态背景和动态物体。通过使用4D几何控制表示,可以显式地控制相机和物体的运动轨迹。这种表示方法能够捕捉物体在3D空间中的位置和形状随时间的变化,从而实现更精确和自然的运动控制。

技术框架:VerseCrafter的整体框架包括以下几个主要模块:1) 4D几何控制表示:使用静态背景点云和3D高斯轨迹来编码场景的几何信息和物体运动。2) 自动数据引擎:从真实视频中提取4D控制信息,用于训练模型。3) 视频扩散模型:使用4D控制作为条件信号,生成高保真、视角一致的视频。

关键创新:VerseCrafter最重要的技术创新点是其4D几何控制表示。与传统的基于2D图像或3D边界框的方法不同,该表示能够显式地捕捉物体在3D空间中的运动轨迹和形状变化。此外,自动数据引擎的开发解决了训练数据稀缺的问题,使得模型能够在海量真实视频数据上进行训练。

关键设计:4D几何控制表示的关键设计包括:1) 使用3D高斯分布来表示物体在每个时间步的形状和位置,从而捕捉物体的不确定性。2) 使用静态背景点云来表示场景的静态几何信息。3) 设计损失函数来鼓励生成的视频与4D控制信号保持一致。自动数据引擎的关键设计包括:1) 使用运动分割算法来提取视频中的物体。2) 使用3D重建算法来估计物体的3D形状和运动轨迹。3) 使用数据增强技术来增加训练数据的多样性。

📊 实验亮点

VerseCrafter通过4D几何控制实现了对视频中相机和物体运动的精确控制,生成了高保真、视角一致的视频。实验结果表明,该方法在视频生成质量和运动控制精度方面均优于现有方法。自动数据引擎的开发使得模型能够在海量真实视频数据上进行训练,进一步提升了模型的泛化能力。

🎯 应用场景

VerseCrafter具有广泛的应用前景,包括虚拟现实、游戏开发、电影制作和机器人仿真等领域。它可以用于生成逼真的虚拟环境,模拟复杂的物理交互,以及创建具有高度可控性的动画内容。此外,该技术还可以应用于自动驾驶和智能监控等领域,用于理解和预测场景中的物体运动。

📄 摘要(原文)

Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.