Separators in Enhancing Autoregressive Pretraining for Vision Mamba
作者: Hanpeng Liu, Zidan Wang, Shuoxi Zhang, Kaiyuan Gao, Kun He
分类: cs.CV, cs.AI
发布日期: 2026-03-04
💡 一句话要点
提出STAR,通过分隔符增强Vision Mamba的自回归预训练,提升长序列处理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Vision Mamba 自回归预训练 长序列建模 分隔符 图像分类
📋 核心要点
- 现有自回归预训练方法受限于短序列任务,未能充分利用Mamba处理长序列的优势。
- 通过引入分隔符STAR,区分不同图像,从而扩展Vision Mamba的输入序列长度。
- STAR-B模型在ImageNet-1k上达到83.5%的精度,验证了长序列预训练的有效性。
📝 摘要(中文)
本文提出了一种用于Vision Mamba的创新自回归预训练方法,旨在显著扩展输入序列长度。该方法引入了用于自回归预训练的分隔符(STAR),通过在每张图像前插入相同的分隔符来区分不同的图像。这种策略使得Vision Mamba的输入序列长度能够增加四倍,同时保持原始数据集图像的维度不变。利用这种长序列预训练技术,STAR-B模型在ImageNet-1k上实现了83.5%的精度,在Vision Mamba模型中具有很强的竞争力。这些结果突显了该方法在通过改进对长程依赖的利用来增强视觉模型性能方面的潜力。
🔬 方法详解
问题定义:现有的自回归预训练方法在处理视觉任务时,由于计算复杂度和内存限制,通常只能处理较短的序列。这限制了模型捕捉图像中长程依赖关系的能力,无法充分发挥Vision Mamba在处理长序列方面的优势。因此,需要一种能够有效扩展输入序列长度的自回归预训练方法。
核心思路:本文的核心思路是通过引入分隔符来区分不同的图像,从而将多个图像拼接成一个更长的序列进行预训练。具体来说,在每张图像前插入相同的分隔符,使得模型能够明确地知道每个图像的起始位置。这样,模型就可以在更长的序列上学习图像之间的关系,从而提高其性能。
技术框架:该方法主要包含以下几个步骤:1) 数据准备:将多个图像拼接成一个长序列,并在每张图像前插入分隔符。2) 模型训练:使用Vision Mamba模型对长序列进行自回归预训练。3) 模型评估:在ImageNet-1k等数据集上评估预训练模型的性能。
关键创新:该方法最重要的创新点在于引入了分隔符的概念,使得Vision Mamba能够处理更长的输入序列。与传统的自回归预训练方法相比,该方法能够更好地利用Mamba在处理长序列方面的优势,从而提高模型的性能。此外,该方法简单有效,易于实现。
关键设计:分隔符的选择是一个关键的设计。论文中使用了相同的分隔符,这使得模型能够更容易地学习到分隔符的含义。此外,输入序列的长度也是一个重要的参数。论文中将输入序列的长度增加了四倍,这使得模型能够学习到更长的依赖关系。损失函数采用标准的自回归语言建模损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用STAR预训练的STAR-B模型在ImageNet-1k上取得了83.5%的精度,这在Vision Mamba模型中具有很强的竞争力。该结果验证了所提出的分隔符方法能够有效提升Vision Mamba的性能,使其能够更好地处理长序列图像数据。
🎯 应用场景
该研究成果可应用于各种需要处理长序列图像数据的视觉任务,例如视频理解、医学图像分析、遥感图像处理等。通过提升模型对长程依赖关系的建模能力,可以提高这些任务的性能和准确性。该方法还有潜力推广到其他基于Mamba的视觉模型中,进一步提升其性能。
📄 摘要(原文)
The state space model Mamba has recently emerged as a promising paradigm in computer vision, attracting significant attention due to its efficient processing of long sequence tasks. Mamba's inherent causal mechanism renders it particularly suitable for autoregressive pretraining. However, current autoregressive pretraining methods are constrained to short sequence tasks, failing to fully exploit Mamba's prowess in handling extended sequences. To address this limitation, we introduce an innovative autoregressive pretraining method for Vision Mamba that substantially extends the input sequence length. We introduce new \textbf{S}epara\textbf{T}ors for \textbf{A}uto\textbf{R}egressive pretraining to demarcate and differentiate between different images, known as \textbf{STAR}. Specifically, we insert identical separators before each image to demarcate its inception. This strategy enables us to quadruple the input sequence length of Vision Mamba while preserving the original dimensions of the dataset images. Employing this long sequence pretraining technique, our STAR-B model achieved an impressive accuracy of 83.5\% on ImageNet-1k, which is highly competitive in Vision Mamba. These results underscore the potential of our method in enhancing the performance of vision models through improved leveraging of long-range dependencies.