CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

作者: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

分类: cs.CV

发布日期: 2026-03-06

备注: Project website is available in https://sharelab-sii.github.io/catok-web

💡 一句话要点

提出CaTok，通过MeanFlow解码器实现一维因果图像Token化，提升图像重建质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 因果建模 图像Token化 MeanFlow 自回归模型 图像重建 视觉基础模型 REPA-A 一维表示

📋 核心要点

现有视觉Token化方法要么将2D图像块展平为非因果序列，要么采用启发式排序，与“下一个token预测”模式不符。
CaTok的核心思想是利用MeanFlow解码器学习因果一维表示，通过时间间隔选择token，实现快速生成和高保真采样。
实验结果表明，CaTok在ImageNet重建任务上取得了SOTA性能，并在训练效率上有所提升，同时AR模型性能可与其他领先方法媲美。

📝 摘要（中文）

本文提出了一种名为CaTok的一维因果图像Token化方法，该方法使用MeanFlow解码器。CaTok通过随时间间隔选择token并将它们绑定到MeanFlow目标，学习因果一维表示，支持快速单步生成和高保真多步采样，同时自然地捕获token间隔中的各种视觉概念。为了进一步稳定和加速训练，本文提出了一种直接的正则化方法REPA-A，将编码器特征与视觉基础模型（VFMs）对齐。实验表明，CaTok在ImageNet重建上实现了最先进的结果，以更少的训练周期达到了0.75 FID、22.53 PSNR和0.674 SSIM，并且AR模型的性能与领先方法相当。

🔬 方法详解

问题定义：论文旨在解决现有视觉Token化方法在因果建模上的不足。现有方法要么破坏了图像的二维结构，要么使用了与自回归模型不兼容的启发式排序，导致无法有效利用自回归语言模型的优势进行图像生成和重建。此外，扩散自编码器在应用于视觉token时，缺乏因果性或引入了不平衡性，限制了其性能。

核心思路：CaTok的核心思路是设计一种一维因果图像Token化方法，该方法能够学习到图像的因果表示，并能够支持快速单步生成和高保真多步采样。通过将token与MeanFlow目标绑定，模型可以学习到token之间的依赖关系，从而实现因果建模。

技术框架：CaTok的整体框架包含一个编码器和一个MeanFlow解码器。编码器负责将图像转换为一维token序列，解码器则基于该序列重建图像。在训练过程中，模型通过最小化MeanFlow目标函数来学习token之间的依赖关系。此外，为了稳定和加速训练，模型还采用了REPA-A正则化方法，将编码器特征与视觉基础模型对齐。

关键创新：CaTok的关键创新在于其一维因果Token化方法和MeanFlow解码器的结合。传统方法通常采用二维或非因果的token化方式，而CaTok通过一维因果token化，能够更好地利用自回归模型的优势。MeanFlow解码器则提供了一种有效的图像重建方式，能够生成高质量的图像。REPA-A正则化方法进一步提升了模型的训练效率和性能。

关键设计：CaTok的关键设计包括：1) 一维因果token选择策略，该策略决定了如何从图像中选择token并将其排列成一维序列；2) MeanFlow解码器的具体结构和参数设置，包括网络层数、激活函数等；3) REPA-A正则化方法的具体实现方式，包括如何选择视觉基础模型以及如何计算和应用正则化项；4) 损失函数的设计，包括MeanFlow损失和REPA-A正则化损失的权重。

📊 实验亮点

CaTok在ImageNet重建任务上取得了显著的性能提升，达到了0.75 FID、22.53 PSNR和0.674 SSIM，超过了现有的SOTA方法。更重要的是，CaTok在更少的训练周期下就达到了这些性能，表明其具有更高的训练效率。此外，CaTok的AR模型性能也与领先方法相当，验证了其因果建模能力的有效性。

🎯 应用场景

CaTok具有广泛的应用前景，包括图像生成、图像编辑、图像修复等。其因果建模能力使其能够生成更逼真、更连贯的图像。此外，CaTok还可以应用于视频生成和视频编辑等领域，通过对视频帧进行因果建模，生成高质量的视频内容。该研究的实际价值在于提升图像和视频生成质量，并为相关应用提供新的技术方案。

📄 摘要（原文）

Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理