VideoNSA: Native Sparse Attention Scales Video Understanding
作者: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-10-02
备注: Project Page: https://enxinsong.com/VideoNSA-web/, Code: https://github.com/Espere-1119-Song/VideoNSA
💡 一句话要点
提出VideoNSA,通过原生稀疏注意力有效扩展视频理解模型的上下文长度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 稀疏注意力 视频语言模型 多模态学习 时间推理
📋 核心要点
- 现有视频理解模型受限于上下文长度,难以捕捉关键帧转换和维持长时间连贯性。
- VideoNSA将原生稀疏注意力应用于视频,通过端到端训练,提升模型处理长视频的能力。
- 实验表明,VideoNSA在长视频理解、时间推理和空间基准测试中优于现有方法。
📝 摘要(中文)
本文针对多模态语言模型在视频理解中受限于上下文长度的问题,提出了VideoNSA,将原生稀疏注意力(NSA)应用于视频语言模型。该方法通过在一个包含216K视频指令的数据集上进行端到端训练,适配了Qwen2.5-VL模型。VideoNSA采用了一种硬件感知的混合注意力方法,对文本保留密集注意力,而对视频采用NSA。与token压缩和免训练的稀疏基线相比,VideoNSA在长视频理解、时间推理和空间基准测试中表现出更高的性能。进一步的消融分析揭示了四个关键发现:(1)可靠地扩展到128K tokens;(2)在固定预算下,全局-局部注意力的最佳分配;(3)任务相关的分支使用模式;(4)可学习的组合稀疏注意力有助于诱导动态注意力汇。
🔬 方法详解
问题定义:现有的视频理解模型,特别是基于Transformer的模型,在处理长视频时面临计算复杂度高和内存消耗大的问题。传统的密集注意力机制的计算量随序列长度呈平方增长,使得模型难以扩展到处理更长的视频序列。此外,模型也难以捕捉视频中的关键帧转换和维持长时间的连贯性。
核心思路:VideoNSA的核心思路是将原生稀疏注意力(NSA)引入到视频理解模型中,利用稀疏注意力机制降低计算复杂度,从而能够处理更长的视频序列。通过学习稀疏模式,模型可以更有效地关注视频中的关键信息,提高长视频理解能力。同时,采用硬件感知的混合注意力方法,对文本保留密集注意力,对视频采用NSA,兼顾了性能和效率。
技术框架:VideoNSA基于Qwen2.5-VL模型,并对其进行了适配。整体框架包括视频编码器、文本编码器和跨模态交互模块。视频编码器负责将视频帧转换为视觉特征,文本编码器负责将文本指令转换为文本特征。跨模态交互模块利用稀疏注意力机制,将视觉特征和文本特征进行融合,从而实现视频理解。模型采用端到端训练的方式,在一个包含216K视频指令的数据集上进行训练。
关键创新:VideoNSA最重要的技术创新点在于将原生稀疏注意力(NSA)成功应用于视频理解任务。与传统的密集注意力机制相比,NSA通过学习稀疏模式,只关注视频中的关键信息,从而大大降低了计算复杂度。此外,VideoNSA还采用了一种硬件感知的混合注意力方法,对文本保留密集注意力,对视频采用NSA,兼顾了性能和效率。
关键设计:VideoNSA的关键设计包括:(1) 稀疏注意力模式的学习,通过可学习的参数来控制稀疏模式,使得模型能够自适应地学习到最优的稀疏模式;(2) 全局-局部注意力分配,通过调整全局注意力和局部注意力的比例,来平衡模型的全局理解能力和局部细节捕捉能力;(3) 硬件感知的混合注意力方法,根据硬件的特性,选择合适的注意力机制,从而提高模型的训练和推理效率。
📊 实验亮点
VideoNSA在长视频理解、时间推理和空间基准测试中取得了显著的性能提升。实验结果表明,VideoNSA能够可靠地扩展到128K tokens,并且在固定预算下,全局-局部注意力的最佳分配能够进一步提高模型的性能。此外,实验还发现,任务相关的分支使用模式和可学习的组合稀疏注意力有助于诱导动态注意力汇。
🎯 应用场景
VideoNSA具有广泛的应用前景,例如视频监控、自动驾驶、智能家居、在线教育等领域。它可以用于分析监控视频中的异常行为,帮助自动驾驶系统理解周围环境,实现智能家居设备的智能化控制,以及提供更个性化的在线教育服务。该研究的成果有助于推动视频理解技术的发展,并为相关应用提供更强大的技术支持。
📄 摘要(原文)
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.