VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models

📄 arXiv: 2505.01406v2 📥 PDF

作者: Mohammadreza Teymoorianfard, Siddarth Sitaraman, Shiqing Ma, Amir Houmansadr

分类: cs.CV, cs.CR, cs.LG

发布日期: 2025-05-02 (更新: 2025-11-19)

🔗 代码/项目: GITHUB


💡 一句话要点

提出VidStamp以解决视频生成模型中的水印问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频水印 视频生成 数字版权 鲁棒性 信息嵌入 潜在模型 动态水印

📋 核心要点

  1. 现有水印方法在容量、推理成本和视觉质量方面存在不足,难以满足视频生成模型的需求。
  2. VidStamp通过潜在视频扩散模型的解码器嵌入帧级消息,采用两阶段微调以实现高容量和时间一致性。
  3. 实验结果显示,VidStamp在嵌入信息量和鲁棒性方面优于现有方法,准确度达到0.96,超越了VideoShield基线。

📝 摘要(中文)

视频扩散模型能够生成逼真且时间一致的视频,这引发了对来源、所有权和完整性的担忧。水印技术可以通过将元数据直接嵌入内容来解决这些问题。有效的水印需要足够的容量以传递有意义的元数据,同时保持不可感知性并对常见视频操作具有鲁棒性。现有方法在容量、推理成本或视觉质量方面存在不足。本文提出VidStamp,一个通过潜在视频扩散模型的解码器嵌入帧级消息的水印框架。该解码器经过两个阶段的微调,第一阶段使用静态图像数据集以促进空间消息分离,第二阶段使用合成视频序列以恢复时间一致性。VidStamp支持动态水印,通过控制信号在推理过程中选择消息模板,增加了灵活性并创建了第二个通信通道。实验表明,VidStamp在保持视觉质量的同时,每帧嵌入48位信息,并且对常见失真具有鲁棒性。

🔬 方法详解

问题定义:本文旨在解决视频生成模型中的水印问题,现有方法在容量、推理成本和视觉质量方面存在不足,难以有效嵌入元数据并保持视频质量。

核心思路:VidStamp的核心思路是通过潜在视频扩散模型的解码器嵌入帧级消息,采用两阶段微调策略,首先利用静态图像数据集促进空间消息分离,然后使用合成视频序列恢复时间一致性。

技术框架:VidStamp的整体架构包括两个主要阶段:第一阶段针对静态图像数据集进行微调以优化空间消息的分离,第二阶段则利用合成视频序列进行微调以确保时间一致性。

关键创新:VidStamp的主要创新在于其动态水印能力,通过控制信号选择消息模板,提供了灵活性和额外的通信通道,且在每帧嵌入48位信息的同时保持了视觉质量。

关键设计:在设计中,VidStamp采用了特定的损失函数以优化水印的嵌入效果,并在网络结构上进行了调整,以确保在不同视频操作下的鲁棒性。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

VidStamp在实验中每帧成功嵌入48位信息,且在保持视觉质量的同时,对常见失真表现出良好的鲁棒性。与VideoSeal、VideoShield和RivaGAN相比,VidStamp在log P值和可检测性方面表现更优,且其帧级水印设计实现了0.96的准确度,超越了VideoShield的基线。

🎯 应用场景

VidStamp的研究成果在视频内容保护、版权管理和数字水印等领域具有广泛的应用潜力。随着视频生成技术的不断发展,确保视频的所有权和完整性变得愈发重要,VidStamp提供了一种有效的解决方案,能够在多种场景中应用,如社交媒体、影视制作和在线教育等。

📄 摘要(原文)

Video diffusion models can generate realistic and temporally consistent videos. This raises concerns about provenance, ownership, and integrity. Watermarking can help address these issues by embedding metadata directly into the content. To work well, a watermark needs enough capacity for meaningful metadata. It must also stay imperceptible and remain robust to common video manipulations. Existing methods struggle with limited capacity, extra inference cost, or reduced visual quality. We introduce VidStamp, a watermarking framework that embeds frame-level messages through the decoder of a latent video diffusion model. The decoder is fine-tuned in two stages. The first stage uses static image datasets to encourage spatial message separation. The second stage uses synthesized video sequences to restore temporal consistency. This approach enables high-capacity watermarks with minimal perceptual impact. VidStamp also supports dynamic watermarking through a control signal that selects message templates during inference. This adds flexibility and creates a second channel for communication. We evaluate VidStamp on Stable Video Diffusion (I2V), OpenSora, and Wan (T2V). The system embeds 48 bits per frame while preserving visual quality and staying robust to common distortions. Compared with VideoSeal, VideoShield, and RivaGAN, it achieves lower log P-values and stronger detectability. Its frame-wise watermarking design also enables precise temporal tamper localization, with an accuracy of 0.96, which exceeds the VideoShield baseline. Code: https://github.com/SPIN-UMass/VidStamp