VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models
作者: Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai
分类: cs.CV, cs.AI
发布日期: 2026-03-02
💡 一句话要点
VidDoS:针对视频大语言模型的通用拒绝服务攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 拒绝服务攻击 能量-延迟攻击 通用扰动 安全性 鲁棒性 对抗攻击
📋 核心要点
- 视频大语言模型面临能量-延迟攻击,现有图像方法无法有效攻击,实时性要求也限制了逐实例优化。
- VidDoS利用通用优化生成实例无关的触发器,无需推理时梯度计算,通过特定策略引导模型产生高代价序列。
- 实验表明,VidDoS能显著增加token数量和推理延迟,在自动驾驶场景中甚至导致严重安全问题。
📝 摘要(中文)
视频大语言模型(Video-LLMs)越来越多地部署在安全关键型应用中,但它们容易受到能量-延迟攻击(ELAs)的影响,这种攻击会耗尽计算资源。现有的以图像为中心的方法失效,因为时间聚合机制会稀释单个帧的扰动。此外,实时需求使得实例级的优化对于连续视频流来说不切实际。我们提出了VidDoS,这是第一个为Video-LLMs量身定制的通用ELA框架。我们的方法利用通用优化来创建实例无关的触发器,这些触发器不需要推理时的梯度计算。我们通过$ extit{masked teacher forcing}$来引导模型生成计算代价高的目标序列,并结合$ extit{refusal penalty}$和$ extit{early-termination suppression}$来覆盖简洁性先验。在三个主流Video-LLMs和三个视频数据集(包括视频问答和自动驾驶场景)上的测试表明,VidDoS导致了严重的性能下降。VidDoS诱导了超过205倍的token扩展,并将推理延迟增加了超过15倍(相对于干净的基线)。实时自动驾驶流的模拟进一步表明,这种诱导的延迟会导致严重的安全违规。我们敦促社区认识并减轻Video-LLMs中这些高危ELA。
🔬 方法详解
问题定义:论文旨在解决视频大语言模型(Video-LLMs)易受能量-延迟攻击(ELA)的问题。现有的图像中心攻击方法在视频场景下效果不佳,因为时间聚合机制会削弱单帧扰动的影响。此外,对于需要实时处理的视频流,逐实例优化方法由于计算量过大而难以应用。
核心思路:论文的核心思路是设计一种通用的、实例无关的攻击方法,即VidDoS。该方法通过预先计算好的通用扰动(触发器)来诱导Video-LLM产生计算代价高的输出序列,从而耗尽计算资源并增加延迟。这种方法避免了推理时对每个视频实例进行优化,满足了实时性要求。
技术框架:VidDoS框架主要包含以下几个关键组成部分:1) 通用扰动生成器:负责生成实例无关的通用扰动。2) Masked Teacher Forcing:用于引导模型生成目标序列,通过掩码机制控制哪些token由模型生成,哪些由目标序列提供。3) Refusal Penalty:惩罚模型拒绝生成目标序列的行为,鼓励模型生成更长的序列。4) Early-Termination Suppression:抑制模型过早结束生成过程,进一步延长生成序列的长度。
关键创新:VidDoS的关键创新在于其通用性和高效性。与以往需要针对每个输入实例进行优化的攻击方法不同,VidDoS生成的扰动是实例无关的,可以在不同的视频上重复使用,大大降低了攻击成本。此外,VidDoS通过精心设计的损失函数和训练策略,能够有效地诱导模型产生高代价的输出序列。
关键设计:VidDoS的关键设计包括:1) 损失函数:损失函数结合了Masked Teacher Forcing损失、Refusal Penalty和Early-Termination Suppression项,共同引导模型生成目标序列。2) Masked Teacher Forcing策略:通过调整掩码的比例,可以控制模型生成序列的长度和多样性。3) 目标序列选择:选择计算代价高的序列作为目标,例如包含大量重复或复杂结构的序列。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VidDoS能够显著增加Video-LLM的token扩展和推理延迟。在三个主流Video-LLM和三个视频数据集上,VidDoS诱导了超过205倍的token扩展,并将推理延迟增加了超过15倍(相对于干净的基线)。在实时自动驾驶流的模拟中,VidDoS导致的延迟导致了严重的安全违规,证明了其攻击的有效性和危害性。
🎯 应用场景
VidDoS的研究成果可应用于评估和增强视频大语言模型在安全关键领域的鲁棒性,例如自动驾驶、智能监控和远程医疗等。通过模拟和分析VidDoS攻击,可以发现Video-LLM的潜在漏洞,并开发相应的防御机制,提高系统的安全性和可靠性。该研究也提醒开发者重视Video-LLM的安全性,避免将其部署在对延迟敏感的应用中。
📄 摘要(原文)
Video-LLMs are increasingly deployed in safety-critical applications but are vulnerable to Energy-Latency Attacks (ELAs) that exhaust computational resources. Current image-centric methods fail because temporal aggregation mechanisms dilute individual frame perturbations. Additionally, real-time demands make instance-wise optimization impractical for continuous video streams. We introduce VidDoS, which is the first universal ELA framework tailored for Video-LLMs. Our method leverages universal optimization to create instance-agnostic triggers that require no inference-time gradient calculation. We achieve this through $\textit{masked teacher forcing}$ to steer models toward expensive target sequences, combined with a $\textit{refusal penalty}$ and $\textit{early-termination suppression}$ to override conciseness priors. Testing across three mainstream Video-LLMs and three video datasets, which include video question answering and autonomous driving scenarios, shows extreme degradation. VidDoS induces a token expansion of more than 205$\times$ and inflates the inference latency by more than 15$\times$ relative to clean baselines. Simulations of real-time autonomous driving streams further reveal that this induced latency leads to critical safety violations. We urge the community to recognize and mitigate these high-hazard ELA in Video-LLMs.