Prompt-based Consistent Video Colorization
作者: Silvia Dani, Tiberio Uricchio, Lorenzo Seidenari
分类: cs.CV, cs.AI
发布日期: 2025-11-27
💡 一句话要点
提出基于提示词的视频一致性着色方法,解决时序闪烁和人工干预问题。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 视频着色 扩散模型 语言条件 光流估计 时序一致性 语义指导 自动化
📋 核心要点
- 现有视频着色方法存在时序闪烁,且依赖大量人工标注,限制了其应用。
- 利用语言条件扩散模型,结合自动生成的对象掩码和文本提示,实现自动视频着色。
- 实验表明,该方法在着色精度和视觉真实感方面均达到SOTA,提升了着色效果。
📝 摘要(中文)
现有的视频着色方法面临时序闪烁问题,或需要大量人工输入。本文提出了一种新颖的方法,利用语言和分割提供的丰富语义指导,自动实现高保真视频着色。我们采用语言条件扩散模型来着色灰度帧。通过自动生成的对象掩码和文本提示提供指导;我们的主要自动方法使用通用提示,在没有特定颜色输入的情况下实现了最先进的结果。通过使用光流(RAFT)扭曲来自先前帧的颜色信息来实现时间稳定性;校正步骤检测并修复由扭曲引入的不一致性。在标准基准(DAVIS30,VIDEVO20)上的评估表明,我们的方法在着色精度(PSNR)和视觉真实感(Colorfulness,CDC)方面实现了最先进的性能,证明了基于自动提示的指导对于一致视频着色的有效性。
🔬 方法详解
问题定义:视频着色的目标是为灰度视频帧赋予色彩,使其更具视觉吸引力。现有方法的痛点在于:一是容易出现时序闪烁,即相邻帧之间的颜色不一致;二是需要大量人工干预,例如手动指定颜色或提供参考图像,这限制了其自动化程度和应用范围。
核心思路:本文的核心思路是利用语言和分割信息作为语义指导,通过语言条件扩散模型自动生成高质量的着色结果。同时,利用光流技术保证时序一致性,并设计校正步骤来修复可能出现的不一致性。这种方法旨在减少人工干预,并提高着色结果的质量和时序稳定性。
技术框架:整体框架包含以下几个主要模块:1) 语言条件扩散模型:用于根据文本提示和对象掩码生成初始着色结果。2) 光流估计模块(RAFT):用于估计相邻帧之间的光流,从而将颜色信息从前一帧传递到当前帧。3) 时序一致性校正模块:用于检测和修复由于光流估计误差或遮挡等原因导致的时序不一致性。整个流程首先利用语言条件扩散模型对关键帧进行着色,然后利用光流将颜色信息传播到其他帧,最后通过校正模块消除时序不一致性。
关键创新:最重要的技术创新点在于将语言提示和对象掩码作为语义指导,用于控制扩散模型的着色过程。与传统的基于参考图像或人工标注的方法相比,这种方法更加自动化,并且可以利用丰富的语义信息来生成更符合场景的着色结果。此外,时序一致性校正模块也是一个重要的创新,它可以有效地减少时序闪烁,提高视频的视觉质量。
关键设计:在语言条件扩散模型中,文本提示被编码成向量,并作为条件输入到扩散模型中。对象掩码用于指导模型在特定区域生成特定的颜色。光流估计采用RAFT模型,该模型具有较高的精度和鲁棒性。时序一致性校正模块通过比较相邻帧之间的颜色差异,并利用图像修复技术来消除不一致性。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
该方法在DAVIS30和VIDEVO20等标准基准数据集上取得了state-of-the-art的性能。在着色精度(PSNR)和视觉真实感(Colorfulness, CDC)指标上均优于现有方法,证明了基于自动提示的指导对于一致视频着色的有效性。具体提升幅度未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于老旧电影修复、黑白视频着色、游戏开发、虚拟现实等领域。通过自动化高质量的视频着色,可以提升用户体验,降低制作成本,并为创意产业带来新的可能性。未来,该技术有望进一步应用于实时视频着色和增强现实等领域。
📄 摘要(原文)
Existing video colorization methods struggle with temporal flickering or demand extensive manual input. We propose a novel approach automating high-fidelity video colorization using rich semantic guidance derived from language and segmentation. We employ a language-conditioned diffusion model to colorize grayscale frames. Guidance is provided via automatically generated object masks and textual prompts; our primary automatic method uses a generic prompt, achieving state-of-the-art results without specific color input. Temporal stability is achieved by warping color information from previous frames using optical flow (RAFT); a correction step detects and fixes inconsistencies introduced by warping. Evaluations on standard benchmarks (DAVIS30, VIDEVO20) show our method achieves state-of-the-art performance in colorization accuracy (PSNR) and visual realism (Colorfulness, CDC), demonstrating the efficacy of automated prompt-based guidance for consistent video colorization.