Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

📄 arXiv: 2603.02175v1 📥 PDF

作者: Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

分类: cs.CV, cs.AI

发布日期: 2026-03-02

🔗 代码/项目: GITHUB


💡 一句话要点

Kiwi-Edit:通过指令和参考引导实现通用视频编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频编辑 指令跟随 参考引导 数据生成 图像生成模型

📋 核心要点

  1. 现有基于指令的视频编辑方法难以实现精确的视觉控制,因为自然语言描述复杂视觉细节存在局限性。
  2. 论文提出Kiwi-Edit,通过指令和参考图像引导视频编辑,利用图像生成模型合成参考支架,构建大规模数据集RefVIE。
  3. Kiwi-Edit通过渐进式多阶段训练,在指令跟随和参考保真度方面取得了显著提升,并在可控视频编辑方面达到SOTA。

📝 摘要(中文)

基于指令的视频编辑发展迅速,但现有方法在精确视觉控制方面存在困难,因为自然语言在描述复杂视觉细节方面存在局限性。参考引导编辑提供了一个强大的解决方案,但其潜力受到高质量配对训练数据稀缺的限制。为了弥合这一差距,我们引入了一个可扩展的数据生成流程,将现有的视频编辑对转换为高保真训练四元组,利用图像生成模型创建合成参考支架。使用此流程,我们构建了RefVIE,一个专为指令-参考-跟随任务量身定制的大规模数据集,并建立了RefVIE-Bench用于综合评估。此外,我们提出了一种统一的编辑架构Kiwi-Edit,它协同学习查询和潜在视觉特征以实现参考语义引导。我们的模型通过渐进式多阶段训练课程在指令跟随和参考保真度方面取得了显著提升。大量实验表明,我们的数据和架构在可控视频编辑方面建立了新的最先进水平。

🔬 方法详解

问题定义:现有基于指令的视频编辑方法难以精确控制编辑后的视觉效果,因为自然语言在描述复杂视觉细节时存在局限性。虽然参考图像引导的编辑方法可以提供更精确的控制,但缺乏高质量的配对训练数据限制了其发展。

核心思路:论文的核心思路是利用图像生成模型合成参考图像,从而生成大规模的训练数据,并设计一个统一的架构来融合指令和参考图像的信息,实现更精确的视频编辑。通过引入参考图像,弥补了自然语言描述的不足,从而提升编辑的精确性和可控性。

技术框架:Kiwi-Edit的整体框架包含以下几个关键部分:1) 数据生成pipeline,用于将现有的视频编辑对转换为包含指令、原始视频、编辑后视频和合成参考图像的四元组;2) RefVIE数据集和RefVIE-Bench评估基准;3) Kiwi-Edit模型,该模型采用统一的架构,利用可学习的查询和潜在视觉特征,结合指令和参考图像的信息进行视频编辑。模型训练采用渐进式多阶段训练策略。

关键创新:论文的关键创新在于:1) 提出了一个可扩展的数据生成pipeline,能够有效地生成大规模的指令-参考-跟随训练数据;2) 构建了RefVIE数据集和RefVIE-Bench评估基准,为该领域的研究提供了有力支持;3) 提出了Kiwi-Edit模型,该模型能够有效地融合指令和参考图像的信息,实现更精确的视频编辑。

关键设计:数据生成pipeline利用图像生成模型(具体模型未知)生成参考图像,以补充指令信息。Kiwi-Edit模型采用可学习的查询机制,从指令和参考图像中提取相关信息,并将其融合到潜在视觉特征中。训练过程采用渐进式多阶段策略,逐步提升模型在指令跟随和参考保真度方面的能力。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了大规模数据集RefVIE,并提出了Kiwi-Edit模型,在指令跟随和参考保真度方面取得了显著提升。实验结果表明,Kiwi-Edit在可控视频编辑方面达到了新的SOTA水平。具体的性能数据和对比基线需要在论文中查找(未知)。

🎯 应用场景

Kiwi-Edit具有广泛的应用前景,例如视频内容创作、视频修复、个性化视频编辑等。该技术可以帮助用户更轻松地编辑视频,并实现更精确的视觉效果控制。未来,该技术可以应用于智能视频编辑工具、虚拟现实/增强现实内容生成等领域,具有重要的实际价值和潜在的商业价值。

📄 摘要(原文)

Instruction-based video editing has witnessed rapid progress, yet current methods often struggle with precise visual control, as natural language is inherently limited in describing complex visual nuances. Although reference-guided editing offers a robust solution, its potential is currently bottlenecked by the scarcity of high-quality paired training data. To bridge this gap, we introduce a scalable data generation pipeline that transforms existing video editing pairs into high-fidelity training quadruplets, leveraging image generative models to create synthesized reference scaffolds. Using this pipeline, we construct RefVIE, a large-scale dataset tailored for instruction-reference-following tasks, and establish RefVIE-Bench for comprehensive evaluation. Furthermore, we propose a unified editing architecture, Kiwi-Edit, that synergizes learnable queries and latent visual features for reference semantic guidance. Our model achieves significant gains in instruction following and reference fidelity via a progressive multi-stage training curriculum. Extensive experiments demonstrate that our data and architecture establish a new state-of-the-art in controllable video editing. All datasets, models, and code is released at https://github.com/showlab/Kiwi-Edit.