Accelerating Text-to-Video Generation with Calibrated Sparse Attention

作者: Shai Yehezkel, Shahar Yadin, Noam Elata, Yaron Ostrovsky-Berman, Bahjat Kawar

分类: cs.CV

发布日期: 2026-03-05

💡 一句话要点

CalibAtt：通过校准稀疏注意力加速文本到视频生成

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到视频生成 扩散模型 稀疏注意力 模型加速 免训练方法

📋 核心要点

现有文本到视频生成模型依赖大型Transformer，计算瓶颈在于时空注意力机制，效率有待提升。
CalibAtt通过离线校准，识别并利用token连接中的稀疏性和重复模式，优化注意力计算。
实验表明，CalibAtt在保持生成质量和文本对齐的前提下，实现了高达1.58倍的端到端加速。

📝 摘要（中文）

近期的扩散模型能够生成高质量的视频，但运行速度较慢。这些模型中基于Transformer的大型骨干网络受限于时空注意力机制。本文发现，在各种输入中，很大一部分token-to-token连接始终产生可忽略不计的分数，并且它们的模式在不同的查询中经常重复。因此，在这些情况下，可以跳过注意力计算，而对结果几乎没有影响。这一观察结果对于局部token块之间的连接仍然成立。受此启发，我们提出了一种名为CalibAtt的免训练方法，该方法通过校准稀疏注意力来加速视频生成。CalibAtt执行离线校准过程，识别在输入中稳定的块级稀疏性和重复模式，并将这些模式编译为每个层、头和扩散时间步长的优化注意力操作。在推理时，我们密集地计算所选的输入相关连接，并以硬件高效的方式跳过未选择的连接。在Wan 2.1 14B、Mochi 1和各种分辨率下的少量步骤蒸馏模型上的大量实验表明，CalibAtt实现了高达1.58倍的端到端加速，优于现有的免训练方法，同时保持了视频生成质量和文本-视频对齐。

🔬 方法详解

问题定义：文本到视频生成任务中，基于Transformer的扩散模型计算量巨大，特别是时空注意力模块。现有方法在处理所有token连接时效率低下，存在大量冗余计算，限制了生成速度。

核心思路：论文的核心在于发现并利用注意力机制中的稀疏性。通过离线分析，确定哪些token连接的注意力权重始终很低，从而在推理时跳过这些连接的计算。此外，还发现注意力模式在不同查询中存在重复性，可以进一步优化。

技术框架：CalibAtt包含离线校准和在线推理两个阶段。离线校准阶段，对训练数据进行分析，识别稳定的块级稀疏性和重复模式。然后，将这些模式编译成优化的注意力操作，针对每个层、头和扩散时间步长进行定制。在线推理阶段，只计算选定的输入相关连接，跳过未选择的连接，从而加速计算。

关键创新：CalibAtt的关键创新在于提出了一种免训练的稀疏注意力方法，无需重新训练模型即可加速推理。通过离线校准，自动发现并利用注意力机制中的稀疏性和重复性，避免了手动设计稀疏模式的困难。

关键设计：CalibAtt的关键设计包括：1) 块级稀疏性：将token分成块，以减少校准的计算量。2) 离线校准：在推理前完成稀疏模式的识别和优化，避免在线计算的开销。3) 硬件高效的跳过机制：采用专门设计的硬件操作来高效地跳过未选择的连接。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CalibAtt在Wan 2.1 14B、Mochi 1和少量步骤蒸馏模型上实现了显著的加速效果，最高可达1.58倍。与现有的免训练方法相比，CalibAtt在加速的同时，保持了视频生成质量和文本-视频对齐，证明了其有效性和优越性。

🎯 应用场景

CalibAtt加速文本到视频生成的技术可广泛应用于内容创作、虚拟现实、游戏开发等领域。通过提高视频生成速度，可以降低计算成本，并促进实时视频生成应用的发展。该方法还有潜力应用于其他Transformer模型加速，例如图像生成、语音识别等。

📄 摘要（原文）

Recent diffusion models enable high-quality video generation, but suffer from slow runtimes. The large transformer-based backbones used in these models are bottlenecked by spatiotemporal attention. In this paper, we identify that a significant fraction of token-to-token connections consistently yield negligible scores across various inputs, and their patterns often repeat across queries. Thus, the attention computation in these cases can be skipped with little to no effect on the result. This observation continues to hold for connections among local token blocks. Motivated by this, we introduce CalibAtt, a training-free method that accelerates video generation via calibrated sparse attention. CalibAtt performs an offline calibration pass that identifies block-level sparsity and repetition patterns that are stable across inputs, and compiles these patterns into optimized attention operations for each layer, head, and diffusion timestep. At inference time, we compute the selected input-dependent connections densely, and skip the unselected ones in a hardware-efficient manner. Extensive experiments on Wan 2.1 14B, Mochi 1, and few-step distilled models at various resolutions show that CalibAtt achieves up to 1.58x end-to-end speedup, outperforming existing training-free methods while maintaining video generation quality and text-video alignment.

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理