Plenoptic Video Generation
作者: Xiao Fu, Shitao Tang, Min Shi, Xian Liu, Jinwei Gu, Ming-Yu Liu, Dahua Lin, Chen-Hsuan Lin
分类: cs.CV
发布日期: 2026-01-08
备注: Project Page: https://research.nvidia.com/labs/dir/plenopticdreamer/
💡 一句话要点
提出PlenopticDreamer以解决多视角视频生成一致性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 时空一致性 自回归模型 相机引导 多视角重渲染 视觉保真度 机器人操作 虚拟现实
📋 核心要点
- 现有的生成视频重渲染方法在多视角场景中难以保持一致性,尤其是在生成区域的时空连贯性方面面临挑战。
- 本文提出的PlenopticDreamer框架通过自回归训练和相机引导的视频检索策略,增强了生成视频的时空一致性。
- 在Basic和Agibot基准测试中,PlenopticDreamer实现了最先进的视频重渲染效果,表现出更高的视角同步性和视觉保真度。
📝 摘要(中文)
相机控制的生成视频重渲染方法,如ReCamMaster,取得了显著进展。然而,尽管在单视角设置中表现良好,这些方法在多视角场景中往往难以保持一致性。为了解决这一问题,本文提出了PlenopticDreamer框架,通过同步生成的幻觉来维持时空记忆。核心思想是以自回归方式训练一个多输入单输出的视频条件模型,并通过相机引导的视频检索策略自适应选择先前生成的显著视频作为条件输入。此外,训练过程中采用渐进上下文缩放以提高收敛性,自我条件化以增强对长距离视觉退化的鲁棒性,以及长视频条件机制以支持扩展视频生成。大量实验表明,PlenopticDreamer在视频重渲染方面达到了最先进的水平,提供了优越的视角同步、高保真视觉、准确的相机控制和多样的视角变换。
🔬 方法详解
问题定义:本文旨在解决多视角视频生成中的一致性问题,现有方法在生成区域的时空连贯性方面存在显著挑战,尤其是在生成模型的随机性影响下。
核心思路:PlenopticDreamer通过训练一个多输入单输出的视频条件模型,以自回归方式生成视频,同时结合相机引导的视频检索策略,选择先前生成的显著视频作为条件输入,从而增强生成的一致性和连贯性。
技术框架:该框架主要包括三个模块:视频条件生成模块、相机引导检索模块和渐进上下文缩放模块。视频条件生成模块负责生成视频帧,相机引导检索模块选择合适的历史视频作为条件输入,而渐进上下文缩放模块则提高模型的收敛速度。
关键创新:PlenopticDreamer的关键创新在于其自回归生成策略和相机引导的视频检索机制,这与现有方法的单一视角生成方式形成了本质区别,显著提升了多视角生成的一致性。
关键设计:在训练过程中,采用了自我条件化技术以增强模型对长距离视觉退化的鲁棒性,并引入长视频条件机制以支持扩展视频生成,确保生成过程中的时空一致性。
📊 实验亮点
在Basic和Agibot基准测试中,PlenopticDreamer在视频重渲染任务中表现出色,达到了最先进的水平,具体表现为视角同步性提高了XX%,视觉保真度提升了XX%,并且在相机控制和视角变换方面也展现了显著的优势。
🎯 应用场景
PlenopticDreamer的研究成果在多个领域具有广泛的应用潜力,包括虚拟现实、增强现实、机器人操作和影视制作等。通过提高视频生成的一致性和视觉质量,该技术能够为用户提供更为沉浸和真实的体验,推动相关行业的发展。
📄 摘要(原文)
Camera-controlled generative video re-rendering methods, such as ReCamMaster, have achieved remarkable progress. However, despite their success in single-view setting, these works often struggle to maintain consistency across multi-view scenarios. Ensuring spatio-temporal coherence in hallucinated regions remains challenging due to the inherent stochasticity of generative models. To address it, we introduce PlenopticDreamer, a framework that synchronizes generative hallucinations to maintain spatio-temporal memory. The core idea is to train a multi-in-single-out video-conditioned model in an autoregressive manner, aided by a camera-guided video retrieval strategy that adaptively selects salient videos from previous generations as conditional inputs. In addition, Our training incorporates progressive context-scaling to improve convergence, self-conditioning to enhance robustness against long-range visual degradation caused by error accumulation, and a long-video conditioning mechanism to support extended video generation. Extensive experiments on the Basic and Agibot benchmarks demonstrate that PlenopticDreamer achieves state-of-the-art video re-rendering, delivering superior view synchronization, high-fidelity visuals, accurate camera control, and diverse view transformations (e.g., third-person to third-person, and head-view to gripper-view in robotic manipulation). Project page: https://research.nvidia.com/labs/dir/plenopticdreamer/