WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

作者: Yisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo

分类: cs.CV

发布日期: 2026-03-02

💡 一句话要点

WorldStereo：通过3D几何记忆桥接相机引导的视频生成与场景重建

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频生成 3D重建 几何记忆 相机控制 多视角一致性 世界模型 扩散模型 点云

📋 核心要点

现有视频扩散模型在生成高质量视频方面取得了显著进展，但难以从中重建一致的3D场景。
WorldStereo通过引入全局几何记忆和空间立体记忆，实现精确相机控制和多视角一致性，从而解决上述问题。
实验表明，WorldStereo在相机引导视频生成和3D重建方面表现出色，并能处理透视和全景图像等多种场景。

📝 摘要（中文）

本文提出了一种名为WorldStereo的新框架，旨在桥接相机引导的视频生成和3D重建。该框架利用两个专门的几何记忆模块：全局几何记忆和空间立体记忆。全局几何记忆通过增量更新的点云实现精确的相机控制，并注入粗略的结构先验。空间立体记忆通过3D对应关系约束模型的注意力感受野，从而关注来自记忆库的精细细节。这些组件使WorldStereo能够在精确的相机控制下生成多视角一致的视频，从而促进高质量的3D重建。此外，基于灵活控制分支的WorldStereo显示出令人印象深刻的效率，这得益于分布匹配的蒸馏VDM骨干网络，无需联合训练。广泛的实验表明了该方法在相机引导的视频生成和3D重建基准测试中的有效性。WorldStereo作为一个强大的世界模型，能够处理各种场景生成任务（无论是从透视图像还是全景图像开始），并获得高保真的3D结果。

🔬 方法详解

问题定义：现有视频扩散模型生成的视频在3D重建方面存在困难，主要原因是相机控制有限以及从不同相机轨迹观察时生成内容不一致。这导致难以从生成的视频中获得高质量、一致的3D场景表示。

核心思路：WorldStereo的核心思路是利用3D几何记忆来增强视频生成过程中的相机控制和内容一致性。通过显式地建模场景的3D结构，并将其融入到视频生成过程中，可以确保生成的多视角视频在几何上是一致的，从而更容易进行3D重建。

技术框架：WorldStereo框架包含两个关键模块：全局几何记忆和空间立体记忆。全局几何记忆通过增量更新的点云来提供粗略的结构先验，并实现精确的相机控制。空间立体记忆则利用3D对应关系来约束模型的注意力，使其关注精细的细节。整个框架基于一个分布匹配的蒸馏VDM骨干网络，通过灵活的控制分支实现高效的视频生成和3D重建。

关键创新：WorldStereo的关键创新在于将3D几何信息显式地融入到视频生成过程中。与传统的视频生成方法不同，WorldStereo不仅关注视觉质量，还关注生成内容在3D空间中的一致性。通过全局几何记忆和空间立体记忆，WorldStereo能够生成具有精确相机控制和多视角一致性的视频，从而显著提升3D重建的质量。

关键设计：全局几何记忆使用增量更新的点云来表示场景的粗略结构，并通过相机姿态估计来更新点云。空间立体记忆使用3D对应关系来约束模型的注意力感受野，从而关注精细的细节。此外，WorldStereo使用分布匹配的蒸馏VDM骨干网络，以提高生成效率和质量。损失函数的设计也考虑了多视角一致性和3D重建的准确性。

🖼️ 关键图片

📊 实验亮点

WorldStereo在相机引导的视频生成和3D重建基准测试中取得了显著的成果。实验结果表明，WorldStereo能够生成具有高视觉质量和多视角一致性的视频，并能够从中重建高质量的3D场景。相较于现有方法，WorldStereo在3D重建的准确性和完整性方面均有显著提升。具体性能数据将在论文中详细展示。

🎯 应用场景

WorldStereo具有广泛的应用前景，包括虚拟现实/增强现实内容生成、游戏开发、电影制作和机器人导航等领域。它可以用于生成逼真的虚拟场景，并支持用户在虚拟环境中进行交互。此外，WorldStereo还可以用于从视频中重建3D场景，从而为机器人提供环境感知能力。

📄 摘要（原文）

Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理