NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing
作者: Tianlin Pan, Jiayi Dai, Chenpu Yuan, Zhengyao Lv, Binxin Yang, Hubery Yin, Chen Li, Jing Lyu, Caifeng Shan, Chenyang Si
分类: cs.CV
发布日期: 2026-03-03
备注: Accepted by CVPR 2026
💡 一句话要点
NOVA:稀疏控制与稠密合成,用于无配对视频编辑
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频编辑 无配对学习 稀疏控制 稠密合成 时间一致性 运动保持 退化模拟
📋 核心要点
- 现有视频编辑方法依赖大量配对数据,难以获取且限制了局部编辑的应用。
- NOVA框架通过稀疏控制提供语义指导,稠密合成保持视频细节和时间一致性。
- 通过退化模拟训练,NOVA无需配对数据即可学习运动重建和时间一致性,效果显著。
📝 摘要(中文)
现有的视频编辑模型取得了显著成果,但大多依赖大规模配对数据集。收集自然对齐的配对数据极具挑战,尤其对于局部视频编辑数据而言,这构成了一个关键瓶颈。现有方法通过全局运动控制将图像编辑迁移到视频,以实现无配对视频编辑,但此类设计在背景和时间一致性方面表现不佳。本文提出NOVA:稀疏控制与稠密合成,这是一个用于无配对视频编辑的新框架。具体而言,稀疏分支通过用户编辑的关键帧提供语义指导,这些关键帧分布在整个视频中;稠密分支持续整合来自原始视频的运动和纹理信息,以保持高保真度和连贯性。此外,我们引入了一种退化模拟训练策略,通过在人工退化视频上进行训练,使模型能够学习运动重建和时间一致性,从而消除了对配对数据的需求。大量实验表明,NOVA在编辑保真度、运动保持和时间连贯性方面优于现有方法。
🔬 方法详解
问题定义:现有视频编辑模型依赖大规模配对数据集,而收集自然对齐的视频编辑配对数据成本高昂,尤其对于局部视频编辑而言。现有无配对视频编辑方法,如基于全局运动控制的方法,难以保证编辑后的视频在背景和时间上的一致性。
核心思路:NOVA的核心思路是结合稀疏控制和稠密合成。稀疏控制利用用户编辑的关键帧提供语义指导,而稠密合成则从原始视频中提取运动和纹理信息,以保持视频的细节和时间连贯性。通过这种方式,模型可以在没有配对数据的情况下,实现高质量的视频编辑。
技术框架:NOVA框架包含两个主要分支:稀疏控制分支和稠密合成分支。稀疏控制分支接收用户编辑的关键帧作为输入,提取语义信息。稠密合成分支接收原始视频作为输入,提取运动和纹理信息。两个分支的信息融合后,生成编辑后的视频。此外,框架还包含一个退化模拟模块,用于生成人工退化视频,用于训练模型学习运动重建和时间一致性。
关键创新:NOVA的关键创新在于其稀疏控制与稠密合成的结合,以及退化模拟训练策略。稀疏控制允许用户灵活地编辑视频的关键帧,而稠密合成则保证了视频的细节和时间连贯性。退化模拟训练策略使得模型可以在没有配对数据的情况下学习运动重建和时间一致性,大大降低了数据收集的成本。
关键设计:在稀疏控制分支中,使用了卷积神经网络提取关键帧的语义特征。在稠密合成分支中,使用了光流估计和运动补偿技术来提取运动信息。退化模拟模块通过添加噪声、模糊等操作来模拟视频的退化过程。损失函数包括编辑损失、运动损失和时间一致性损失,用于约束模型的输出。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NOVA在编辑保真度、运动保持和时间连贯性方面均优于现有方法。与现有最佳方法相比,NOVA在用户研究中获得了更高的偏好评分,证明了其在实际应用中的有效性。通过消融实验验证了稀疏控制、稠密合成和退化模拟训练策略的有效性。
🎯 应用场景
NOVA可应用于各种视频编辑场景,如风格迁移、对象替换、内容增强等。它降低了视频编辑对配对数据的依赖,使得普通用户也能轻松进行高质量的视频编辑。该技术在电影制作、广告设计、社交媒体内容创作等领域具有广泛的应用前景,并可能推动视频编辑工具的智能化和自动化。
📄 摘要(原文)
Recent video editing models have achieved impressive results, but most still require large-scale paired datasets. Collecting such naturally aligned pairs at scale remains highly challenging and constitutes a critical bottleneck, especially for local video editing data. Existing workarounds transfer image editing to video through global motion control for pair-free video editing, but such designs struggle with background and temporal consistency. In this paper, we propose NOVA: Sparse Control \& Dense Synthesis, a new framework for unpaired video editing. Specifically, the sparse branch provides semantic guidance through user-edited keyframes distributed across the video, and the dense branch continuously incorporates motion and texture information from the original video to maintain high fidelity and coherence. Moreover, we introduce a degradation-simulation training strategy that enables the model to learn motion reconstruction and temporal consistency by training on artificially degraded videos, thus eliminating the need for paired data. Our extensive experiments demonstrate that NOVA outperforms existing approaches in edit fidelity, motion preservation, and temporal coherence.