Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration

📄 arXiv: 2508.14483v3 📥 PDF

作者: Haoran Bai, Xiaoxu Chen, Canqian Yang, Zongyao He, Sibin Deng, Ying Chen

分类: cs.CV

发布日期: 2025-08-20 (更新: 2025-09-26)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Vivid-VR以解决视频恢复中的纹理真实感与时间一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频恢复 纹理真实感 时间一致性 概念蒸馏 多模态对齐 生成模型 ControlNet 深度学习

📋 核心要点

  1. 现有方法在视频恢复中面临纹理真实感和时间一致性不足的问题,常因多模态对齐不完善而导致分布漂移。
  2. 论文提出了一种概念蒸馏训练策略,通过预训练的T2V模型合成训练样本,保留纹理和时间质量。
  3. Vivid-VR在合成和真实世界基准测试中表现优异,相较于现有方法在纹理真实感和时间一致性上有显著提升。

📝 摘要(中文)

我们提出了Vivid-VR,一种基于DiT的生成视频恢复方法,构建于先进的T2V基础模型之上。通过利用ControlNet控制生成过程,确保内容一致性。然而,传统的可控管道微调常因多模态对齐不足而导致分布漂移,从而影响纹理真实感和时间一致性。为了解决这一挑战,我们提出了一种概念蒸馏训练策略,利用预训练的T2V模型合成嵌入文本概念的训练样本,从而保留纹理和时间质量。为增强生成可控性,我们重新设计了控制架构,包含控制特征投影器和双分支ControlNet连接器。大量实验表明,Vivid-VR在合成和真实世界基准测试中表现优异,取得了令人印象深刻的纹理真实感、视觉生动性和时间一致性。

🔬 方法详解

问题定义:论文要解决视频恢复中纹理真实感和时间一致性不足的问题。现有方法常因多模态对齐不完善而导致分布漂移,影响生成质量。

核心思路:论文的核心解决思路是通过概念蒸馏训练策略,利用预训练的T2V模型合成带有文本概念的训练样本,从而增强生成过程中的纹理和时间质量。

技术框架:整体架构包括两个主要模块:控制特征投影器和双分支ControlNet连接器。控制特征投影器用于过滤输入视频潜在的降级伪影,双分支连接器结合MLP特征映射与交叉注意力机制,实现动态控制特征的提取。

关键创新:最重要的技术创新点在于提出的概念蒸馏训练策略和双分支ControlNet连接器,这与现有方法的主要区别在于更好地保留了生成内容的一致性和质量。

关键设计:关键设计包括控制特征投影器的参数设置,以及双分支连接器的网络结构,确保在生成过程中有效减少伪影传播并增强控制信号的调制能力。

📊 实验亮点

Vivid-VR在合成和真实世界基准测试中表现优异,相较于现有方法在纹理真实感、视觉生动性和时间一致性上有显著提升,具体性能数据表明其在多个指标上超越了当前主流技术。

🎯 应用场景

该研究的潜在应用领域包括影视制作、游戏开发和虚拟现实等场景,能够显著提升视频内容的真实感和视觉效果。未来,Vivid-VR有望在自动化视频编辑和生成领域发挥重要作用,推动相关技术的发展。

📄 摘要(原文)

We present Vivid-VR, a DiT-based generative video restoration method built upon an advanced T2V foundation model, where ControlNet is leveraged to control the generation process, ensuring content consistency. However, conventional fine-tuning of such controllable pipelines frequently suffers from distribution drift due to limitations in imperfect multimodal alignment, resulting in compromised texture realism and temporal coherence. To tackle this challenge, we propose a concept distillation training strategy that utilizes the pretrained T2V model to synthesize training samples with embedded textual concepts, thereby distilling its conceptual understanding to preserve texture and temporal quality. To enhance generation controllability, we redesign the control architecture with two key components: 1) a control feature projector that filters degradation artifacts from input video latents to minimize their propagation through the generation pipeline, and 2) a new ControlNet connector employing a dual-branch design. This connector synergistically combines MLP-based feature mapping with cross-attention mechanism for dynamic control feature retrieval, enabling both content preservation and adaptive control signal modulation. Extensive experiments show that Vivid-VR performs favorably against existing approaches on both synthetic and real-world benchmarks, as well as AIGC videos, achieving impressive texture realism, visual vividness, and temporal consistency. The codes and checkpoints are publicly available at https://github.com/csbhr/Vivid-VR.