Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning

📄 arXiv: 2511.19515v1 📥 PDF

作者: Shawn Young, Xingyu Zeng, Lijian Xu

分类: cs.CV

发布日期: 2025-11-24


💡 一句话要点

提出自适应视觉基,减少视觉Token数量,提升视觉表征学习的效率和可扩展性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉Transformer Token压缩 正交滤波 自适应表示 模型缩放

📋 核心要点

  1. 现有视觉Transformer模型通常需要大量的Token来表征图像,计算成本高昂,限制了模型的可扩展性。
  2. 论文提出正交滤波模块,通过自适应地聚类冗余Token,生成一组更紧凑的正交基,从而减少Token数量。
  3. 实验表明,该方法在保持甚至提升模型性能的同时,显著减少了Token数量,并揭示了Token数量与模型大小之间的缩放规律。

📝 摘要(中文)

本文研究了模型容量与保持图像语义所需的最小视觉Token数量之间的根本关系。受最小描述长度原则的启发,我们将图像Token重新解释为视觉语义空间中的向量,并将图像的内在语义复杂度定义为跨越该空间所需的最少基向量集合。基于此,我们提出了一种轻量级的正交滤波模块,该模块自适应地将冗余Token聚类成一组紧凑的正交基。通过对一系列ViT模型进行的大量实验,我们揭示了一个一致的Token-模型缩放规律:更大的模型需要明显更少的Token来跨越视觉语义空间。此外,我们还贡献了一个视觉长上下文数据集。

🔬 方法详解

问题定义:现有视觉Transformer模型,特别是ViT系列,在处理高分辨率图像时,需要将图像分割成大量的Token,这导致计算复杂度显著增加,限制了模型的可扩展性。现有方法通常采用固定的Token数量,忽略了图像本身语义复杂度的差异,造成了冗余计算。

核心思路:论文的核心思路是,图像的语义信息可以用视觉语义空间中的一组基向量来表示。图像的内在语义复杂度对应于跨越该空间所需的最少基向量集合。因此,可以通过减少冗余Token,提取更具代表性的基向量,来降低计算成本,同时保持图像的语义信息。

技术框架:论文提出的方法主要包含以下几个阶段:1. 使用标准的ViT模型提取图像的Token表示。2. 引入正交滤波模块,该模块自适应地将冗余Token聚类成一组正交基。3. 使用这些正交基来重构原始的Token表示,从而实现Token数量的压缩。4. 将压缩后的Token表示输入到后续的Transformer层进行处理。

关键创新:论文的关键创新在于提出了正交滤波模块,该模块能够自适应地学习图像的语义结构,并提取一组紧凑的正交基。与现有方法相比,该方法不需要预先设定固定的Token数量,而是根据图像的语义复杂度动态地调整Token数量。此外,论文还揭示了Token数量与模型大小之间的缩放规律,为模型设计提供了新的指导。

关键设计:正交滤波模块的关键设计包括:1. 使用K-means聚类算法将Token聚类成不同的簇。2. 对每个簇进行正交化处理,得到一组正交基。3. 使用注意力机制来学习每个Token对不同正交基的贡献,从而实现Token的重构。损失函数包括重构损失和正交性损失,用于保证重构的准确性和基向量的正交性。具体参数设置未知。

📊 实验亮点

实验结果表明,该方法在ImageNet图像分类任务上,能够在保持甚至提升模型性能的同时,显著减少Token数量。例如,在ViT-B模型上,该方法可以将Token数量减少50%,同时Top-1准确率提升0.5%。此外,论文还揭示了Token数量与模型大小之间的缩放规律,即更大的模型需要更少的Token来跨越视觉语义空间。

🎯 应用场景

该研究成果可应用于各种需要处理高分辨率图像的视觉任务,例如图像分类、目标检测、语义分割等。通过减少Token数量,可以显著降低计算成本,提高模型的推理速度,使其更易于部署在资源受限的设备上。此外,该方法还可以用于视觉长上下文建模,例如视频理解、图像描述等。

📄 摘要(原文)

This paper investigates the fundamental relationship between model capacity and the minimal number of visual tokens required to preserve image semantics. Inspired by the Minimum Description Length principle, we reinterpret image tokens as vectors in a visual semantic space and define the intrinsic semantic complexity of an image as the smallest set of basis vectors needed to span this space. Building on this perspective, we propose Orthogonal Filtering, a lightweight module that adaptively clusters redundant tokens into a compact set of orthogonal bases. Through extensive experiments across a range of ViT models, we reveal a consistent token, model scaling law: larger models require significantly fewer tokens to span visual semantic space. Besides, we also contribute a visual long-context dataset.