DREAM: Where Visual Understanding Meets Text-to-Image Generation

📄 arXiv: 2603.02667v1 📥 PDF

作者: Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati, Hong-You Chen, Satya Narayan Shukla, Yonghuan Yang, Jun Xiao, Xiangjun Fan, Aashu Singh, Dina Katabi, Shlok Kumar Mishra

分类: cs.CV, cs.LG

发布日期: 2026-03-03


💡 一句话要点

DREAM:融合视觉理解与文本到图像生成的统一框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 文本到图像生成 视觉表示学习 对比学习 图像重建 掩码策略 语义对齐 判别模型

📋 核心要点

  1. 多模态学习的核心挑战在于如何在一个模型中统一视觉表示学习和文本到图像(T2I)生成。
  2. DREAM通过联合优化判别和生成目标,并结合Masking Warmup和语义对齐解码,实现了视觉理解和图像生成的统一。
  3. DREAM在ImageNet线性探测精度和FID指标上均超越了现有模型,并在多个下游任务中取得了显著提升。

📝 摘要(中文)

本文提出了DREAM,一个统一的框架,旨在单个模型中联合优化判别和生成目标,同时学习强大的视觉表示。DREAM基于两项关键技术:训练期间,Masking Warmup采用渐进式掩码策略,首先使用最小掩码来建立表示学习所需的对比对齐,然后逐渐过渡到完全掩码以实现稳定的生成训练。在推理时,DREAM采用语义对齐解码,将部分掩码的图像候选与目标文本对齐,并选择最佳候选进行进一步解码,在不使用外部重排序器的情况下,提高了文本-图像的保真度(+6.3%)。仅在CC12M上训练的DREAM实现了72.7%的ImageNet线性探测精度(比CLIP高+1.1%)和4.25的FID(比FLUID高+6.2%),并在少样本分类、语义分割和深度估计方面取得了持续的提升。这些结果表明,判别和生成目标可以协同作用,从而实现统一的多模态模型,在视觉理解和生成方面都表现出色。

🔬 方法详解

问题定义:现有方法难以在单个模型中同时实现强大的视觉表示学习和高质量的文本到图像生成。判别式模型擅长视觉理解,但缺乏生成能力;生成式模型擅长图像生成,但视觉表示能力较弱。如何将两者有效结合,是当前多模态学习面临的挑战。

核心思路:DREAM的核心思路是联合优化判别和生成目标,使模型既能学习到高质量的视觉表示,又能生成与文本描述一致的图像。通过Masking Warmup策略,逐步增加图像掩码比例,平衡判别和生成任务的学习难度。语义对齐解码则用于在推理阶段选择与文本描述最匹配的图像候选。

技术框架:DREAM的整体框架包含一个共享的视觉编码器和一个文本编码器。在训练阶段,模型同时进行图像重建(生成任务)和图像分类(判别任务)。Masking Warmup策略控制图像掩码的比例,从而调节判别和生成任务的权重。在推理阶段,模型首先生成多个部分掩码的图像候选,然后通过语义对齐解码选择与文本描述最匹配的候选进行进一步解码,生成最终的图像。

关键创新:DREAM的关键创新在于Masking Warmup策略和语义对齐解码。Masking Warmup策略通过渐进式掩码,实现了判别和生成任务的平滑过渡,避免了模型在训练初期陷入局部最优。语义对齐解码则利用文本信息指导图像生成,提高了生成图像与文本描述的一致性。

关键设计:Masking Warmup策略采用线性增加掩码比例的方式,从最小掩码逐渐过渡到完全掩码。语义对齐解码使用文本编码器的输出作为查询向量,与图像候选的视觉特征进行相似度计算,选择相似度最高的候选。损失函数包括图像重建损失和图像分类损失,两者通过Masking Warmup策略进行加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DREAM在CC12M数据集上训练,取得了显著的性能提升。在ImageNet线性探测任务中,DREAM的准确率达到72.7%,比CLIP高1.1%。在文本到图像生成任务中,DREAM的FID指标为4.25,比FLUID低6.2%。此外,DREAM在少样本分类、语义分割和深度估计等下游任务中也取得了 consistent 的提升。

🎯 应用场景

DREAM具有广泛的应用前景,包括图像编辑、图像生成、视觉问答、图像检索等。该模型可以用于生成逼真且与文本描述一致的图像,也可以用于理解图像内容并回答相关问题。此外,DREAM还可以应用于机器人视觉领域,帮助机器人理解周围环境并执行相应的任务。

📄 摘要(原文)

Unifying visual representation learning and text-to-image (T2I) generation within a single model remains a central challenge in multimodal learning. We introduce DREAM, a unified framework that jointly optimizes discriminative and generative objectives, while learning strong visual representations. DREAM is built on two key techniques: During training, Masking Warmup, a progressive masking schedule, begins with minimal masking to establish the contrastive alignment necessary for representation learning, then gradually transitions to full masking for stable generative training. At inference, DREAM employs Semantically Aligned Decoding to align partially masked image candidates with the target text and select the best one for further decoding, improving text-image fidelity (+6.3%) without external rerankers. Trained solely on CC12M, DREAM achieves 72.7% ImageNet linear-probing accuracy (+1.1% over CLIP) and an FID of 4.25 (+6.2% over FLUID), with consistent gains in few-shot classification, semantic segmentation, and depth estimation. These results demonstrate that discriminative and generative objectives can be synergistic, allowing unified multimodal models that excel at both visual understanding and generation.