Semantic-Aware Autoregressive Image Modeling for Visual Representation Learning
作者: Kaiyou Song, Shan Zhang, Tong Wang
分类: cs.CV
发布日期: 2023-12-16
备注: Accepted by AAAI2024
💡 一句话要点
提出语义感知自回归图像建模(SemAIM),用于视觉表征学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自回归建模 视觉表征学习 自监督学习 语义感知 图像建模
📋 核心要点
- 图像缺乏自然顺序,使得自回归模型难以直接应用于视觉表征学习。
- SemAIM通过语义感知的图像块排列,实现从语义强到语义弱的自回归建模。
- 实验表明,SemAIM在图像分类、目标检测和分割等任务上优于现有自监督方法。
📝 摘要(中文)
自回归建模(AM)在计算机视觉领域的应用落后于自然语言处理(NLP)中的自监督预训练。这主要是因为图像不是序列信号,并且在应用自回归建模时缺乏自然顺序。本研究受到人类理解图像方式的启发,即首先关注主要对象,提出了一种语义感知自回归图像建模(SemAIM)方法来解决这一挑战。SemAIM的关键思想是从语义性强的图像块到语义性弱的图像块进行自回归建模。为此,我们首先根据图像块的特征相似性计算语义感知的排列,然后基于该排列执行自回归过程。此外,考虑到图像块的原始像素是低级信号,不是学习高级语义表示的理想预测目标,我们还探索了利用图像块特征作为预测目标。在包括图像分类、目标检测和实例/语义分割在内的广泛下游任务上进行了大量实验,以评估SemAIM的性能。结果表明,与其他自监督方法相比,SemAIM取得了最先进的性能。具体而言,使用ViT-B,SemAIM在ImageNet上微调后达到84.1%的top-1准确率,在COCO上进行目标检测和实例分割分别达到51.3% AP和45.4% AP,分别优于vanilla MAE 0.5%、1.0%和0.5%。
🔬 方法详解
问题定义:现有自回归图像建模方法难以直接应用,因为图像不像文本那样具有天然的序列结构。如何确定图像块的自回归顺序,以及如何选择合适的预测目标,是视觉自回归建模的关键挑战。现有方法通常采用随机或固定的顺序,忽略了图像的语义信息,并且直接预测像素值,不利于学习高级语义表示。
核心思路:SemAIM的核心思想是模拟人类视觉感知过程,即首先关注图像中最重要的语义区域,然后逐步关注其他区域。因此,SemAIM设计了一种语义感知的图像块排列方式,使得自回归过程从语义性强的区域开始,逐步扩展到语义性弱的区域。同时,SemAIM选择图像块的特征作为预测目标,而不是原始像素,以促进学习高级语义表示。
技术框架:SemAIM的整体框架包括以下几个主要步骤:1) 将输入图像分割成多个图像块;2) 提取每个图像块的特征表示;3) 计算图像块之间的语义相似度,并基于相似度确定自回归顺序;4) 使用Transformer模型进行自回归建模,预测下一个图像块的特征表示;5) 使用预测的特征表示进行下游任务的微调。
关键创新:SemAIM最重要的创新点在于提出了语义感知的图像块排列方式。与传统的随机或固定顺序相比,SemAIM能够更好地捕捉图像的语义结构,从而提高自回归建模的效率和效果。此外,选择图像块的特征作为预测目标也是一个重要的创新,它避免了直接预测低级像素值,从而促进了高级语义表示的学习。
关键设计:SemAIM的关键设计包括:1) 使用预训练的视觉Transformer (ViT)提取图像块的特征表示;2) 使用余弦相似度计算图像块之间的语义相似度;3) 使用Transformer解码器进行自回归建模,损失函数为均方误差(MSE),用于衡量预测特征与真实特征之间的差异。自回归顺序通过计算所有patch之间的相似度矩阵,然后计算每个patch与其他所有patch的平均相似度,作为该patch的语义强度,按照语义强度降序排列。
📊 实验亮点
SemAIM在ImageNet图像分类、COCO目标检测和实例分割等任务上取得了显著的性能提升。具体而言,使用ViT-B作为骨干网络,SemAIM在ImageNet上微调后达到了84.1%的top-1准确率,在COCO上进行目标检测和实例分割分别达到了51.3% AP和45.4% AP,分别优于vanilla MAE 0.5%、1.0%和0.5%。这些结果表明,SemAIM能够有效地学习到高质量的视觉表征。
🎯 应用场景
SemAIM具有广泛的应用前景,可以应用于图像分类、目标检测、图像分割等各种计算机视觉任务。通过自监督预训练,SemAIM可以学习到通用的视觉表征,从而提高下游任务的性能。此外,SemAIM还可以应用于图像生成、图像修复等任务,通过自回归建模生成高质量的图像。
📄 摘要(原文)
The development of autoregressive modeling (AM) in computer vision lags behind natural language processing (NLP) in self-supervised pre-training. This is mainly caused by the challenge that images are not sequential signals and lack a natural order when applying autoregressive modeling. In this study, inspired by human beings' way of grasping an image, i.e., focusing on the main object first, we present a semantic-aware autoregressive image modeling (SemAIM) method to tackle this challenge. The key insight of SemAIM is to autoregressive model images from the semantic patches to the less semantic patches. To this end, we first calculate a semantic-aware permutation of patches according to their feature similarities and then perform the autoregression procedure based on the permutation. In addition, considering that the raw pixels of patches are low-level signals and are not ideal prediction targets for learning high-level semantic representation, we also explore utilizing the patch features as the prediction targets. Extensive experiments are conducted on a broad range of downstream tasks, including image classification, object detection, and instance/semantic segmentation, to evaluate the performance of SemAIM. The results demonstrate SemAIM achieves state-of-the-art performance compared with other self-supervised methods. Specifically, with ViT-B, SemAIM achieves 84.1% top-1 accuracy for fine-tuning on ImageNet, 51.3% AP and 45.4% AP for object detection and instance segmentation on COCO, which outperforms the vanilla MAE by 0.5%, 1.0%, and 0.5%, respectively.