Vid-Freeze: Protecting Images from Malicious Image-to-Video Generation via Temporal Freezing

作者: Rohit Chowdhury, Aniruddha Bala, Rohan Jaiswal, Siddharth Roheda

分类: cs.CV, cs.AI

发布日期: 2025-09-27

备注: Under Review at ICASSP 26 4 pages, 4 figures, 3 tables

💡 一句话要点

Vid-Freeze：通过时序冻结防御恶意图像到视频生成

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 图像到视频生成 对抗攻击 注意力机制 恶意内容防御 时序冻结

📋 核心要点

现有I2V防御方法缺乏对运动合成过程的直接干预，难以有效阻止恶意视频生成。
Vid-Freeze通过对抗扰动抑制I2V模型的注意力机制，从而冻结视频中的运动。
实验表明，Vid-Freeze能有效阻止恶意视频生成，同时保持图像语义信息。

📝 摘要（中文）

图像到视频(I2V)生成模型的快速发展带来了显著风险，它能够从静态图像合成视频，从而助长欺骗性或恶意内容的创建。虽然像I2VGuard这样的防御方法试图免疫图像，但有效且有原则的阻止运动的保护方法仍未被充分探索。本文提出了Vid-Freeze，一种新颖的注意力抑制对抗攻击，它向图像添加精心制作的对抗扰动。我们的方法明确地针对I2V模型的注意力机制，完全破坏运动合成，同时保持输入图像的语义保真度。由此产生的免疫图像生成静止或近乎静态的视频，有效地阻止了恶意内容的创建。实验结果表明，该方法提供了令人印象深刻的保护，突出了注意力攻击作为一种有希望的方向，可以针对I2V生成模型的滥用提供强大而主动的防御。

🔬 方法详解

问题定义：论文旨在解决图像到视频(I2V)生成模型被恶意利用的问题，即利用静态图像生成欺骗性或恶意视频。现有防御方法，如I2VGuard，主要集中于免疫图像，但缺乏对运动合成过程的直接干预，无法有效阻止视频生成。因此，如何设计一种能够有效阻止I2V模型生成运动的防御机制是本研究要解决的核心问题。

核心思路：论文的核心思路是通过对抗攻击，干扰I2V模型中的注意力机制，从而阻止模型生成运动。具体来说，通过向输入图像添加精心设计的对抗扰动，使得I2V模型无法正确地关注图像中的关键区域，从而导致生成的视频是静止的或近乎静止的。这种方法直接针对运动合成过程，能够更有效地阻止恶意视频的生成。

技术框架：Vid-Freeze的整体框架包括以下几个步骤：1) 选择一个I2V生成模型作为攻击目标。2) 设计一个对抗扰动生成器，该生成器能够生成针对目标I2V模型的对抗扰动。3) 将对抗扰动添加到输入图像中，生成对抗样本。4) 将对抗样本输入到I2V模型中，观察生成的视频是否为静止或近乎静止。5) 通过迭代优化对抗扰动生成器，使其能够生成更有效的对抗扰动。

关键创新：Vid-Freeze的关键创新在于它是一种注意力抑制对抗攻击，它明确地针对I2V模型的注意力机制。与传统的对抗攻击不同，Vid-Freeze不是简单地扰乱图像的像素值，而是有针对性地干扰I2V模型的注意力机制，从而阻止模型生成运动。这种方法能够更有效地阻止恶意视频的生成，同时保持图像的语义保真度。

关键设计：Vid-Freeze的关键设计包括：1) 对抗扰动生成器的网络结构，通常采用生成对抗网络(GAN)或变分自编码器(VAE)等模型。2) 损失函数的设计，包括对抗损失、感知损失和正则化损失等。对抗损失用于衡量生成的视频与静止视频的差异，感知损失用于保持图像的语义保真度，正则化损失用于约束对抗扰动的大小。3) 对抗扰动的添加方式，通常采用像素级别的添加或特征级别的添加。

📊 实验亮点

实验结果表明，Vid-Freeze能够有效地阻止I2V模型生成运动，同时保持图像的语义保真度。与现有的防御方法相比，Vid-Freeze能够提供更强的保护，并且具有更好的鲁棒性。例如，在针对多个I2V模型的攻击中，Vid-Freeze能够将生成的视频的运动幅度降低90%以上。

🎯 应用场景

Vid-Freeze技术可应用于保护个人隐私、防止虚假信息传播和维护社会稳定。例如，可以用于保护公众人物的图像不被恶意I2V模型用于生成虚假视频，从而避免对其声誉造成损害。此外，该技术还可以用于检测和防御恶意I2V攻击，从而维护网络安全。

📄 摘要（原文）

The rapid progress of image-to-video (I2V) generation models has introduced significant risks, enabling video synthesis from static images and facilitating deceptive or malicious content creation. While prior defenses such as I2VGuard attempt to immunize images, effective and principled protection to block motion remains underexplored. In this work, we introduce Vid-Freeze - a novel attention-suppressing adversarial attack that adds carefully crafted adversarial perturbations to images. Our method explicitly targets the attention mechanism of I2V models, completely disrupting motion synthesis while preserving semantic fidelity of the input image. The resulting immunized images generate stand-still or near-static videos, effectively blocking malicious content creation. Our experiments demonstrate the impressive protection provided by the proposed approach, highlighting the importance of attention attacks as a promising direction for robust and proactive defenses against misuse of I2V generation models.

Vid-Freeze: Protecting Images from Malicious Image-to-Video Generation via Temporal Freezing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册