InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

📄 arXiv: 2603.03646v1 📥 PDF

作者: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

分类: cs.CV

发布日期: 2026-03-04


💡 一句话要点

InfinityStory提出背景一致、角色感知的长视频生成框架,实现小时级叙事视频合成。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 长视频生成 视频合成 背景一致性 镜头过渡 多主体场景

📋 核心要点

  1. 现有长视频生成方法难以保证跨镜头的背景一致性,且在多角色场景下的镜头过渡效果不佳。
  2. InfinityStory通过背景一致的生成流程和过渡感知视频合成模块,实现视觉连贯且平滑过渡的长视频生成。
  3. 实验表明,InfinityStory在背景一致性、主体一致性和整体性能上均优于现有方法,并在VBench上取得了最佳成绩。

📝 摘要(中文)

本文提出了一种新的框架、数据集和模型,用于生成具有一致视觉叙事的长篇故事视频,旨在解决视频合成中的三个关键限制:镜头间的背景一致性、多主体镜头之间的平滑过渡以及扩展到小时级叙事的能力。该方法引入了一个背景一致的生成流程,在保持角色身份和空间关系的同时,维护场景间的视觉连贯性。此外,还提出了一个过渡感知视频合成模块,为涉及多个主体进入或退出画面的复杂场景生成平滑的镜头过渡,超越了先前工作中的单主体限制。为了支持这项研究,我们贡献了一个包含10,000个多主体过渡序列的合成数据集,涵盖了未充分研究的动态场景构成。在VBench上,InfinityStory实现了最高的背景一致性(88.94)、最高的主体一致性(82.11)和最佳的整体平均排名(2.80),表明其具有更高的稳定性、更平滑的过渡和更好的时间连贯性。

🔬 方法详解

问题定义:现有长视频生成方法在生成长篇故事视频时,面临着背景不一致、多主体场景下镜头过渡不自然以及难以扩展到小时级别叙事等问题。尤其是在多主体同时进入或离开画面的复杂场景中,现有的方法往往无法生成平滑自然的过渡效果。

核心思路:InfinityStory的核心思路是构建一个背景一致的生成流程,并引入一个过渡感知视频合成模块。通过维护角色身份和空间关系,保证场景间的视觉连贯性。同时,利用过渡感知模块,学习生成平滑的镜头过渡,从而提升长视频的整体质量和叙事连贯性。

技术框架:InfinityStory的整体框架包含以下几个主要模块:1) 背景一致性生成模块,用于生成具有一致背景的视频片段;2) 过渡感知视频合成模块,用于生成平滑的镜头过渡;3) 数据集,包含10,000个多主体过渡序列,用于训练和评估模型。整个流程首先利用背景一致性生成模块生成各个场景的视频片段,然后通过过渡感知视频合成模块将这些片段连接起来,形成完整的长视频。

关键创新:InfinityStory的关键创新在于提出了过渡感知视频合成模块,该模块能够处理多主体同时进入或离开画面的复杂场景,生成平滑自然的镜头过渡。这与现有方法中主要关注单主体过渡形成了鲜明对比,大大提升了长视频生成的真实感和流畅性。此外,构建了包含10,000个多主体过渡序列的合成数据集,为模型的训练和评估提供了有力支持。

关键设计:关于关键设计,论文中提到构建了一个包含10,000个多主体过渡序列的合成数据集,但未提供关于损失函数、网络结构等更具体的技术细节。这部分信息可能需要在论文的补充材料或后续研究中进一步了解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InfinityStory在VBench基准测试中取得了显著成果,背景一致性达到88.94,主体一致性达到82.11,整体平均排名为2.80。这些数据表明,InfinityStory在长视频生成方面具有更高的稳定性、更平滑的过渡和更好的时间连贯性,显著优于现有方法。

🎯 应用场景

InfinityStory可应用于电影制作、游戏开发、虚拟现实、教育娱乐等领域。该技术能够自动生成长篇故事视频,降低视频制作成本,提高创作效率。未来,该技术有望应用于个性化内容生成、虚拟角色互动等领域,为用户带来更加丰富和沉浸式的体验。

📄 摘要(原文)

Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.