CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

📄 arXiv: 2603.06449v1 📥 PDF

作者: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2026-03-06

备注: Project website is available in https://sharelab-sii.github.io/catok-web


💡 一句话要点

提出CaTok,通过MeanFlow解码器实现一维因果图像Token化,提升图像重建质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 因果建模 图像Token化 MeanFlow 自回归模型 图像重建 视觉基础模型 REPA-A 一维表示

📋 核心要点

  1. 现有视觉Token化方法要么将2D图像块展平为非因果序列,要么采用启发式排序,与“下一个token预测”模式不符。
  2. CaTok的核心思想是利用MeanFlow解码器学习因果一维表示,通过时间间隔选择token,实现快速生成和高保真采样。
  3. 实验结果表明,CaTok在ImageNet重建任务上取得了SOTA性能,并在训练效率上有所提升,同时AR模型性能可与其他领先方法媲美。

📝 摘要(中文)

本文提出了一种名为CaTok的一维因果图像Token化方法,该方法使用MeanFlow解码器。CaTok通过随时间间隔选择token并将它们绑定到MeanFlow目标,学习因果一维表示,支持快速单步生成和高保真多步采样,同时自然地捕获token间隔中的各种视觉概念。为了进一步稳定和加速训练,本文提出了一种直接的正则化方法REPA-A,将编码器特征与视觉基础模型(VFMs)对齐。实验表明,CaTok在ImageNet重建上实现了最先进的结果,以更少的训练周期达到了0.75 FID、22.53 PSNR和0.674 SSIM,并且AR模型的性能与领先方法相当。

🔬 方法详解

问题定义:论文旨在解决现有视觉Token化方法在因果建模上的不足。现有方法要么破坏了图像的二维结构,要么使用了与自回归模型不兼容的启发式排序,导致无法有效利用自回归语言模型的优势进行图像生成和重建。此外,扩散自编码器在应用于视觉token时,缺乏因果性或引入了不平衡性,限制了其性能。

核心思路:CaTok的核心思路是设计一种一维因果图像Token化方法,该方法能够学习到图像的因果表示,并能够支持快速单步生成和高保真多步采样。通过将token与MeanFlow目标绑定,模型可以学习到token之间的依赖关系,从而实现因果建模。

技术框架:CaTok的整体框架包含一个编码器和一个MeanFlow解码器。编码器负责将图像转换为一维token序列,解码器则基于该序列重建图像。在训练过程中,模型通过最小化MeanFlow目标函数来学习token之间的依赖关系。此外,为了稳定和加速训练,模型还采用了REPA-A正则化方法,将编码器特征与视觉基础模型对齐。

关键创新:CaTok的关键创新在于其一维因果Token化方法和MeanFlow解码器的结合。传统方法通常采用二维或非因果的token化方式,而CaTok通过一维因果token化,能够更好地利用自回归模型的优势。MeanFlow解码器则提供了一种有效的图像重建方式,能够生成高质量的图像。REPA-A正则化方法进一步提升了模型的训练效率和性能。

关键设计:CaTok的关键设计包括:1) 一维因果token选择策略,该策略决定了如何从图像中选择token并将其排列成一维序列;2) MeanFlow解码器的具体结构和参数设置,包括网络层数、激活函数等;3) REPA-A正则化方法的具体实现方式,包括如何选择视觉基础模型以及如何计算和应用正则化项;4) 损失函数的设计,包括MeanFlow损失和REPA-A正则化损失的权重。

📊 实验亮点

CaTok在ImageNet重建任务上取得了显著的性能提升,达到了0.75 FID、22.53 PSNR和0.674 SSIM,超过了现有的SOTA方法。更重要的是,CaTok在更少的训练周期下就达到了这些性能,表明其具有更高的训练效率。此外,CaTok的AR模型性能也与领先方法相当,验证了其因果建模能力的有效性。

🎯 应用场景

CaTok具有广泛的应用前景,包括图像生成、图像编辑、图像修复等。其因果建模能力使其能够生成更逼真、更连贯的图像。此外,CaTok还可以应用于视频生成和视频编辑等领域,通过对视频帧进行因果建模,生成高质量的视频内容。该研究的实际价值在于提升图像和视频生成质量,并为相关应用提供新的技术方案。

📄 摘要(原文)

Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.