Arbitrary Generative Video Interpolation

📄 arXiv: 2510.00578v1 📥 PDF

作者: Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang

分类: cs.CV

发布日期: 2025-10-01

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ArbInterp,实现任意时间戳和长度的生成式视频插帧。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视频插帧 生成模型 时间戳感知 旋转位置编码 长序列生成

📋 核心要点

  1. 现有生成式视频插帧方法只能生成固定数量的中间帧,无法灵活调整帧率或视频长度。
  2. ArbInterp通过时间戳感知旋转位置编码(TaRoPE)和外观-运动解耦条件策略,实现任意时间戳和长度的插帧。
  3. 实验表明,ArbInterp在多尺度插帧任务中,相比现有方法,具有更高的保真度和时空连续性。

📝 摘要(中文)

视频帧插值(VFI)作为视频生成应用中的一项基本功能,旨在从给定的起始帧和结束帧生成中间帧。然而,现有的生成式VFI方法仅限于合成固定数量的中间帧,缺乏调整生成帧率或总序列时长的灵活性。本文提出ArbInterp,一种新颖的生成式VFI框架,能够以任意时间戳和任意长度进行高效插值。具体而言,为了支持任意时间戳的插值,我们提出了时间戳感知旋转位置编码(TaRoPE),它调制时间RoPE中的位置,使生成的帧与目标归一化时间戳对齐。这种设计实现了对帧时间戳的精细控制,解决了先前工作中固定位置范式的局限性。对于任意长度的插值,我们将长序列生成分解为分段式帧合成。我们进一步设计了一种新颖的外观-运动解耦条件策略:它利用先前的段端点来强制外观一致性,并利用时间语义来保持运动连贯性,从而确保跨段的无缝时空过渡。实验上,我们构建了多尺度帧插值(2倍到32倍)的综合基准,以评估跨任意插值因子的泛化能力。结果表明,ArbInterp在所有场景中都优于先前的方法,具有更高的保真度和更无缝的时空连续性。

🔬 方法详解

问题定义:现有视频帧插值方法主要解决固定数量中间帧的生成问题,无法灵活控制生成视频的帧率和总时长。这限制了其在需要动态调整视频播放速度或生成任意长度视频的应用场景中的使用。现有方法的痛点在于缺乏对时间戳的精细控制和对长序列生成中时空一致性的有效建模。

核心思路:ArbInterp的核心思路是将视频插帧问题解耦为两个子问题:任意时间戳插值和任意长度插值。对于任意时间戳插值,通过引入时间戳感知旋转位置编码(TaRoPE)来精确控制生成帧的时间位置。对于任意长度插值,则将长序列生成分解为分段式帧合成,并采用外观-运动解耦条件策略来保证分段之间的时空一致性。

技术框架:ArbInterp框架主要包含以下几个模块:1) 特征提取模块:用于提取输入起始帧和结束帧的特征。2) 时间戳感知旋转位置编码(TaRoPE)模块:用于将目标时间戳信息嵌入到特征中。3) 帧生成模块:基于嵌入时间戳信息的特征生成中间帧。4) 外观-运动解耦条件模块:用于在分段式帧合成中,保证相邻段之间的外观一致性和运动连贯性。整体流程为:输入起始帧和结束帧,提取特征,根据目标时间戳进行位置编码,生成中间帧,并通过外观-运动解耦条件模块保证长序列的时空一致性。

关键创新:ArbInterp的关键创新在于:1) 提出了时间戳感知旋转位置编码(TaRoPE),实现了对生成帧时间戳的精细控制,克服了传统位置编码方法的局限性。2) 设计了外观-运动解耦条件策略,有效解决了长序列插帧中分段之间的时空一致性问题。与现有方法的本质区别在于,ArbInterp能够生成任意时间戳和长度的视频,而现有方法只能生成固定数量的中间帧。

关键设计:TaRoPE的具体实现方式为:将归一化的时间戳信息融入到旋转位置编码中,通过调整旋转角度来控制生成帧的时间位置。外观-运动解耦条件策略的具体实现方式为:利用先前段的端点帧来约束当前段的生成,保证外观一致性;利用时间语义信息来约束当前段的运动,保证运动连贯性。具体的网络结构和损失函数等细节在论文中进行了详细描述(未知)。

📊 实验亮点

ArbInterp在多尺度帧插值(2x到32x)的综合基准测试中,显著优于现有方法。实验结果表明,ArbInterp在所有场景下都具有更高的保真度和更无缝的时空连续性。具体的性能数据和对比基线在论文中进行了详细描述(未知),但总体而言,ArbInterp在各种插值因子下都取得了显著的性能提升。

🎯 应用场景

ArbInterp具有广泛的应用前景,例如:视频编辑、慢动作视频生成、虚拟现实、游戏开发等。它可以用于动态调整视频播放速度,生成任意长度的视频片段,以及创建更逼真的虚拟环境。该研究的实际价值在于提高了视频插帧的灵活性和可控性,为各种视频生成应用提供了更强大的工具。未来,ArbInterp可以进一步扩展到更高分辨率的视频插帧,以及与其他视频处理技术相结合,实现更复杂的功能。

📄 摘要(原文)

Video frame interpolation (VFI), which generates intermediate frames from given start and end frames, has become a fundamental function in video generation applications. However, existing generative VFI methods are constrained to synthesize a fixed number of intermediate frames, lacking the flexibility to adjust generated frame rates or total sequence duration. In this work, we present ArbInterp, a novel generative VFI framework that enables efficient interpolation at any timestamp and of any length. Specifically, to support interpolation at any timestamp, we propose the Timestamp-aware Rotary Position Embedding (TaRoPE), which modulates positions in temporal RoPE to align generated frames with target normalized timestamps. This design enables fine-grained control over frame timestamps, addressing the inflexibility of fixed-position paradigms in prior work. For any-length interpolation, we decompose long-sequence generation into segment-wise frame synthesis. We further design a novel appearance-motion decoupled conditioning strategy: it leverages prior segment endpoints to enforce appearance consistency and temporal semantics to maintain motion coherence, ensuring seamless spatiotemporal transitions across segments. Experimentally, we build comprehensive benchmarks for multi-scale frame interpolation (2x to 32x) to assess generalizability across arbitrary interpolation factors. Results show that ArbInterp outperforms prior methods across all scenarios with higher fidelity and more seamless spatiotemporal continuity. Project website: https://mcg-nju.github.io/ArbInterp-Web/.