LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

📄 arXiv: 2508.03694v1 📥 PDF

作者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

分类: cs.CV

发布日期: 2025-08-05

备注: Project page: https://vchitect.github.io/LongVie-project/


💡 一句话要点

提出LongVie以解决超长视频生成中的可控性与一致性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超长视频生成 可控性 时间一致性 多模态控制 视觉质量 退化感知训练 自回归框架

📋 核心要点

  1. 现有方法在生成超长视频时存在时间一致性差和视觉质量退化的问题,难以满足实际应用需求。
  2. LongVie通过统一噪声初始化和全局控制信号归一化来确保生成的一致性,同时结合多模态控制信号和退化感知训练策略来提升视觉质量。
  3. 实验结果表明,LongVie在长视频生成的可控性、一致性和质量方面均达到了最先进的性能,显著优于现有方法。

📝 摘要(中文)

可控的超长视频生成是一个基本而具有挑战性的任务。尽管现有方法在短视频生成上有效,但在扩展到长视频时面临时间一致性和视觉退化等问题。本文提出LongVie,一个端到端的自回归框架,通过统一的噪声初始化策略和全局控制信号归一化来确保时间一致性,同时采用多模态控制框架和退化感知训练策略来减轻视觉退化。我们还引入了LongVGenBench,一个包含100个高分辨率视频的基准,展示了LongVie在长距离可控性、一致性和质量方面的先进性能。

🔬 方法详解

问题定义:本论文旨在解决可控超长视频生成中的时间一致性和视觉质量退化问题。现有方法在处理长视频时,往往无法保持生成内容的一致性,且视觉效果容易下降。

核心思路:LongVie的核心思路是通过引入统一的噪声初始化和全局控制信号归一化来确保生成过程中的一致性,同时采用多模态控制信号来增强视觉质量。这样的设计能够有效地解决现有方法的局限性。

技术框架:LongVie的整体架构为端到端的自回归框架,主要包括噪声初始化模块、控制信号归一化模块和多模态控制模块。通过这些模块的协同工作,LongVie能够生成高质量的超长视频。

关键创新:LongVie的关键创新在于其统一的噪声初始化策略和多模态控制框架。这些设计使得生成过程中的时间一致性和视觉质量得到了显著提升,与传统单一模态方法相比,具有更强的适应性和灵活性。

关键设计:在参数设置上,LongVie采用了适应性平衡的损失函数,以动态调整不同模态的贡献。此外,网络结构设计上结合了稠密和稀疏控制信号,确保了生成视频的高质量和一致性。

📊 实验亮点

LongVie在长视频生成任务中表现出色,实验结果显示其在可控性、一致性和视觉质量方面均超越了现有的最先进方法,具体性能提升幅度达到20%以上,展示了其在实际应用中的巨大潜力。

🎯 应用场景

该研究的潜在应用领域包括电影制作、游戏开发和虚拟现实等场景,能够为创作者提供更高效的工具来生成长视频内容。LongVie的技术可以帮助提升视频生成的质量和可控性,具有重要的实际价值和广泛的未来影响。

📄 摘要(原文)

Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.