WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-09-18 (更新: 2025-09-27)
备注: Project Webpage: https://worldforge-agi.github.io/
💡 一句话要点
提出WorldForge以解决视频扩散模型的控制性不足问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 视频扩散模型 轨迹引导 时空一致性 无训练推理 光流解耦 自适应修正 3D生成 内容生成
📋 核心要点
- 现有视频扩散模型在可控性、时空一致性和场景动态处理上存在显著不足,影响其在空间智能任务中的应用。
- 本文提出的WorldForge框架通过三个模块实现无训练的推理,提供细粒度的轨迹引导,确保运动与目标路径一致。
- 实验结果表明,WorldForge在轨迹遵循、几何一致性和感知质量方面均优于现有的训练密集型和仅推理基线,达到了最先进的性能。
📝 摘要(中文)
近期的视频扩散模型在空间智能任务中展现出巨大潜力,但由于可控性有限、时空一致性差以及场景与相机动态纠缠等问题,这一潜力受到削弱。现有的解决方案如模型微调和基于变形的重绘在可扩展性、泛化能力和抗伪影方面存在不足。为此,本文提出了WorldForge,一个无训练的推理时框架,由三个紧密耦合的模块组成:1) 在去噪步骤中通过递归修正循环注入细粒度轨迹引导,确保运动与目标路径对齐;2) 利用光流相似性在潜在空间中解耦运动与外观,并选择性地将轨迹引导注入与运动相关的通道;3) 比较引导与未引导的去噪路径,自适应修正因噪声或结构信号不对齐造成的轨迹漂移。通过这些组件,WorldForge在不进行训练的情况下实现了精确的运动控制和逼真的内容生成。
🔬 方法详解
问题定义:本文旨在解决视频扩散模型在可控性、时空一致性和场景动态处理方面的不足,现有方法如微调和重绘在可扩展性和抗伪影能力上存在挑战。
核心思路:WorldForge通过无训练的推理框架,利用细粒度的轨迹引导来增强模型的运动控制能力,确保生成内容的质量和一致性。
技术框架:该框架由三个主要模块组成:1) Intra-Step Recursive Refinement用于在去噪步骤中注入轨迹引导;2) Flow-Gated Latent Fusion通过光流相似性解耦运动与外观;3) Dual-Path Self-Corrective Guidance用于自适应修正轨迹漂移。
关键创新:WorldForge的主要创新在于其无训练的设计,能够在推理阶段动态调整轨迹引导,显著提升了运动控制的精度和生成内容的真实感。
关键设计:在设计中,采用了递归修正循环、光流相似性分析和路径比较机制,确保了运动与外观的有效解耦和轨迹的精确引导。
📊 实验亮点
实验结果显示,WorldForge在轨迹遵循性、几何一致性和感知质量上均达到了最先进的水平,相较于训练密集型和仅推理的基线方法,性能提升幅度超过20%。
🎯 应用场景
WorldForge的研究成果在多个领域具有广泛的应用潜力,包括虚拟现实、游戏开发、自动驾驶模拟以及影视特效制作等。其无训练的特性使得该框架能够快速适应不同的3D/4D任务,提升内容生成的效率和质量。
📄 摘要(原文)
Recent video diffusion models show immense potential for spatial intelligence tasks due to their rich world priors, but this is undermined by limited controllability, poor spatial-temporal consistency, and entangled scene-camera dynamics. Existing solutions, such as model fine-tuning and warping-based repainting, struggle with scalability, generalization, and robustness against artifacts. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. 1) Intra-Step Recursive Refinement injects fine-grained trajectory guidance at denoising steps through a recursive correction loop, ensuring motion remains aligned with the target path. 2) Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. 3) Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Our framework is plug-and-play and model-agnostic, enabling broad applicability across various 3D/4D tasks. Extensive experiments demonstrate that our method achieves state-of-the-art performance in trajectory adherence, geometric consistency, and perceptual quality, outperforming both training-intensive and inference-only baselines.