JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation

作者: Siheng Wan, Zhengtao Yao, Zhengdao Li, Junhao Dong, Yanshu Li, Yikai Li, Linshan Li, Haoyan Xu, Yijiang Li, Zhikang Dong, Huacan Wang, Jifeng Shen

分类: cs.CV

发布日期: 2025-10-01

🔗 代码/项目: GITHUB

💡 一句话要点

提出JEPA-T，通过文本融合的联合嵌入预测架构提升图像生成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 联合嵌入 Transformer 交叉注意力 条件去噪 多模态融合 自监督学习

📋 核心要点

现有文本到图像生成方法难以有效融合文本和视觉token，限制了生成效果。
JEPA-T提出联合嵌入预测Transformer，结合交叉注意力和目标级别对齐，增强文本和图像的融合。
实验表明，JEPA-T在数据效率和开放词汇泛化方面表现出色，优于现有基线方法。

📝 摘要（中文）

现代文本到图像（T2I）生成越来越依赖于使用自监督训练的以token为中心的架构，然而，有效地融合文本和视觉token仍然是一个挑战。我们提出了JEPA-T，一个统一的多模态框架，它将图像和标题编码为离散的视觉和文本token，并由联合嵌入预测Transformer处理。为了增强融合，我们在特征预测器之后加入了交叉注意力，用于条件去噪，同时保持任务无关的骨干网络。此外，在流匹配损失之前注入原始文本嵌入，以提高训练期间的对齐。在推理过程中，同一网络通过迭代地对以文本为条件的视觉token进行去噪，来执行类条件和自由文本图像生成。在ImageNet-1K上的评估表明，JEPA-T实现了强大的数据效率、开放词汇泛化，并且始终优于非融合和晚期融合基线。我们的方法表明，晚期架构融合与目标级别的对齐相结合，在基于token的T2I中，在条件强度和骨干通用性之间提供了一个有效的平衡。

🔬 方法详解

问题定义：现有文本到图像生成模型，特别是基于token的架构，在如何有效地将文本信息融入到视觉token的处理流程中面临挑战。简单的拼接或晚期融合策略可能无法充分利用文本信息，导致生成图像与文本描述不一致或细节缺失。现有方法在条件强度和骨干通用性之间难以取得平衡。

核心思路：JEPA-T的核心思路是采用联合嵌入预测架构，将图像和文本编码为离散的token，并在Transformer中进行联合处理。通过在特征预测器后引入交叉注意力机制，实现文本信息对视觉token的条件去噪，从而增强文本和图像的融合。此外，在训练过程中，通过在流匹配损失之前注入原始文本嵌入，进一步提高文本和图像的对齐。

技术框架：JEPA-T的整体架构包含以下几个主要模块：1) 图像和文本编码器：将图像和文本分别编码为离散的视觉和文本token。2) 联合嵌入预测Transformer：处理视觉和文本token，进行特征预测和融合。3) 交叉注意力模块：在特征预测器之后，利用文本信息对视觉token进行条件去噪。4) 流匹配损失：用于训练模型，并在损失计算前注入原始文本嵌入以提高对齐。在推理阶段，通过迭代去噪视觉token生成图像。

关键创新：JEPA-T的关键创新在于其融合策略，即晚期架构融合与目标级别对齐相结合。这种策略在保持骨干网络通用性的同时，增强了文本信息的条件作用。具体来说，交叉注意力模块的引入和原始文本嵌入的注入，使得文本信息能够更有效地指导图像生成过程。

关键设计：JEPA-T的关键设计包括：1) 使用离散的视觉和文本token表示图像和文本信息。2) 在特征预测器后添加交叉注意力模块，实现条件去噪。3) 在流匹配损失之前注入原始文本嵌入，以提高训练期间的对齐。4) 使用Transformer作为核心处理模块，进行特征预测和融合。具体的参数设置和网络结构细节未在摘要中详细说明，需要参考论文全文。

📊 实验亮点

JEPA-T在ImageNet-1K数据集上进行了评估，实验结果表明，JEPA-T实现了强大的数据效率和开放词汇泛化能力，并且始终优于非融合和晚期融合基线方法。具体的性能数据和提升幅度需要在论文全文中查找。

🎯 应用场景

JEPA-T在文本到图像生成领域具有广泛的应用前景，例如艺术创作、图像编辑、虚拟现实、游戏开发等。该研究可以用于生成高质量、与文本描述高度一致的图像，提升用户体验和创作效率。未来，该技术可以进一步扩展到视频生成、3D模型生成等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Modern Text-to-Image (T2I) generation increasingly relies on token-centric architectures that are trained with self-supervision, yet effectively fusing text with visual tokens remains a challenge. We propose \textbf{JEPA-T}, a unified multimodal framework that encodes images and captions into discrete visual and textual tokens, processed by a joint-embedding predictive Transformer. To enhance fusion, we incorporate cross-attention after the feature predictor for conditional denoising while maintaining a task-agnostic backbone. Additionally, raw texts embeddings are injected prior to the flow matching loss to improve alignment during training. During inference, the same network performs both class-conditional and free-text image generation by iteratively denoising visual tokens conditioned on text. Evaluations on ImageNet-1K demonstrate that JEPA-T achieves strong data efficiency, open-vocabulary generalization, and consistently outperforms non-fusion and late-fusion baselines. Our approach shows that late architectural fusion combined with objective-level alignment offers an effective balance between conditioning strength and backbone generality in token-based T2I.The code is now available: https://github.com/justin-herry/JEPA-T.git

JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册