BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
作者: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein
分类: cs.CV
发布日期: 2025-12-04
备注: Project Page: https://19reborn.github.io/Bullet4D/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
BulletTime:解耦时间和相机姿态控制的视频生成框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频生成 扩散模型 时空控制 相机姿态 4D控制
📋 核心要点
- 现有视频扩散模型将场景动态与相机运动耦合,缺乏对时间和空间的精细控制。
- 提出BulletTime框架,通过解耦场景动态和相机姿态,实现对视频生成过程的精确4D控制。
- 通过在独立参数化的数据集上训练,模型在可控性和生成质量上均优于现有方法。
📝 摘要(中文)
新兴的视频扩散模型虽然实现了很高的视觉逼真度,但从根本上将场景动态与相机运动耦合在一起,限制了它们提供精确的时空控制的能力。我们提出了一种4D可控的视频扩散框架,该框架显式地将场景动态与相机姿态解耦,从而能够对场景动态和相机视角进行细粒度的操作。我们的框架将连续的世界时间序列和相机轨迹作为条件输入,通过注意力层中的4D位置编码和用于特征调制的自适应归一化将它们注入到视频扩散模型中。为了训练这个模型,我们整理了一个独特的数据集,其中时间和相机变化是独立参数化的;这个数据集将被公开。实验表明,我们的模型在各种时间模式和相机轨迹上实现了强大的真实世界4D控制,同时保持了高质量的生成效果,并且在可控性方面优于先前的工作。请访问我们的网站查看视频结果:https://19reborn.github.io/Bullet4D/
🔬 方法详解
问题定义:现有视频生成模型难以同时控制场景内容的时间演变和相机的运动轨迹,二者耦合在一起,导致无法实现精细化的时空控制。例如,用户可能希望保持场景中的物体运动不变,但改变相机的运动方式,或者反之。现有方法无法很好地处理这种需求。
核心思路:BulletTime的核心在于将场景动态(时间)和相机姿态解耦,分别作为独立的控制信号输入到视频扩散模型中。通过这种解耦,模型可以独立地处理时间和空间信息,从而实现对视频生成过程的精细控制。
技术框架:BulletTime框架主要包含以下几个模块:1) 4D位置编码模块,用于将时间和相机轨迹编码成高维特征;2) 自适应归一化模块,用于将编码后的时间和相机信息注入到视频扩散模型的中间层,以调节特征;3) 视频扩散模型,用于生成最终的视频。整体流程是:输入时间和相机轨迹 -> 4D位置编码 -> 自适应归一化 -> 视频扩散模型 -> 生成视频。
关键创新:最重要的创新点在于显式地解耦了时间和相机姿态,并设计了相应的编码和注入机制,使得模型可以独立地控制这两个因素。与现有方法相比,BulletTime能够实现更精细、更灵活的视频生成控制。
关键设计:4D位置编码采用连续的世界时间序列和相机轨迹作为输入,并将其编码为高维特征向量。自适应归一化模块通过学习时间和相机信息的调制参数,将这些信息注入到视频扩散模型的中间层,从而影响特征的分布。此外,为了训练模型,作者专门构建了一个数据集,其中时间和相机变化是独立参数化的。
📊 实验亮点
实验结果表明,BulletTime在各种时间模式和相机轨迹上实现了强大的真实世界4D控制,同时保持了高质量的生成效果。在可控性方面,BulletTime明显优于现有方法,能够生成更符合用户期望的视频内容。作者还公开了用于训练模型的独立参数化数据集,为后续研究提供了便利。
🎯 应用场景
该研究成果可应用于电影特效制作、游戏开发、虚拟现实等领域。例如,可以用于创建具有复杂相机运动和时间变化的场景,或者用于生成具有特定风格的视频内容。此外,该技术还可以用于视频编辑和增强,例如,可以用于调整视频的速度或者改变相机的视角。
📄 摘要(原文)
Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/