Unified Multimodal Model as Auto-Encoder

📄 arXiv: 2509.09666v3 📥 PDF

作者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan

分类: cs.CV

发布日期: 2025-09-11 (更新: 2025-10-10)


💡 一句话要点

提出基于自编码器的统一多模态模型UAE,实现理解与生成的双向提升。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 自编码器 图像描述 文本生成图像 强化学习 视觉感知 双向提升

📋 核心要点

  1. 现有统一多模态模型通常将理解和生成视为独立任务,忽略了它们之间的内在联系和互益性。
  2. 论文提出基于自编码器的统一框架UAE,将理解视为编码,生成视为解码,通过重建目标将两者联系起来。
  3. 实验表明,理解可以增强生成,而生成反过来也能提升细粒度视觉感知,验证了双向提升的有效性。

📝 摘要(中文)

统一多模态模型(UMMs)的构建长期以来受限于多模态理解和生成之间的根本分歧。现有方法通常将两者分离,视为具有不相交目标的不同任务,忽略了它们之间的互益关系。本文认为,真正的统一不仅仅是合并两个任务,更需要一个统一的基础目标,将它们内在联系起来。本文通过自编码器的视角,提出了一个富有洞察力的范例:将理解视为编码器(I2T),将图像压缩成文本;将生成视为解码器(T2I),从文本重建图像。为此,我们提出了UAE,首先使用提出的70万长上下文图像-文本对预训练解码器,引导其“理解”文本中的细粒度和复杂语义。然后,我们通过强化学习提出了Unified-GRPO来统一两者,它涵盖了两个互补阶段:(1)生成促进理解,训练编码器生成信息丰富的文本,以最大限度地提高解码器的重建质量,从而增强其视觉感知;(2)理解促进生成,改进解码器以从这些文本中重建,迫使其利用每一个细节,并提高其长上下文指令跟随和生成保真度。实验结果表明,理解可以极大地增强生成(在GenEval上验证),而生成反过来显着增强了细粒度的视觉感知,如小物体和颜色识别(在MMT-Bench上验证)。这种双向改进揭示了一种深刻的协同作用:在统一的重建目标下,生成和理解可以相互受益,从而更接近真正的统一多模态智能。

🔬 方法详解

问题定义:现有统一多模态模型通常将多模态理解(如图像到文本)和多模态生成(如文本到图像)视为两个独立的任务,分别进行优化。这种分离忽略了理解和生成之间的内在联系,阻碍了模型性能的进一步提升。现有方法的痛点在于缺乏一个统一的目标来同时优化理解和生成能力。

核心思路:论文的核心思路是将多模态理解和生成统一到一个自编码器的框架中。具体来说,将图像到文本的转换视为编码过程,将文本到图像的生成视为解码过程。通过优化图像的重建,迫使编码器生成信息量更大的文本描述,同时提高解码器从文本中重建图像的能力。这种设计旨在利用理解来促进生成,反过来利用生成来提升理解,从而实现双向提升。

技术框架:整体框架包含两个主要阶段:预训练和联合优化。 1. 预训练阶段:使用大规模图像-文本对数据集预训练解码器(T2I模型),使其具备从文本生成高质量图像的能力。 2. 联合优化阶段:使用Unified-GRPO算法,通过强化学习来联合优化编码器(I2T模型)和解码器。该阶段包含两个互补的子阶段: * 生成促进理解:训练编码器生成信息丰富的文本描述,以最大化解码器的图像重建质量。 * 理解促进生成:训练解码器从编码器生成的文本描述中重建图像,迫使其利用文本中的每一个细节。

关键创新:论文的关键创新在于提出了基于自编码器的统一多模态模型UAE,以及相应的Unified-GRPO联合优化算法。与现有方法相比,UAE不再将理解和生成视为独立任务,而是通过重建目标将它们紧密联系起来,实现了双向提升。

关键设计: * 预训练数据:使用了70万长上下文图像-文本对进行解码器预训练,以提高其理解细粒度语义的能力。 * Unified-GRPO算法:使用强化学习来优化编码器和解码器,奖励函数基于图像重建质量。 * 损失函数:使用了图像重建损失(如L1损失或感知损失)来衡量解码器的性能。 * 网络结构:编码器和解码器可以使用各种现有的多模态模型架构,如Transformer或CNN。

📊 实验亮点

实验结果表明,提出的UAE模型在GenEval和MMT-Bench等基准测试中取得了显著的性能提升。具体来说,生成能力在GenEval上得到了验证,同时在MMT-Bench上,模型在小物体和颜色识别等细粒度视觉感知方面表现出色,验证了理解和生成之间的双向促进作用。这些结果表明,通过统一的重建目标,可以有效地提升多模态模型的整体性能。

🎯 应用场景

该研究成果可应用于多种多模态任务,如图像描述生成、文本到图像生成、视觉问答等。通过提升模型对图像和文本的理解能力,可以改善人机交互体验,例如在智能客服、图像编辑、内容创作等领域提供更智能、更准确的服务。未来,该方法有望扩展到更多模态,实现更强大的通用人工智能。

📄 摘要(原文)

The pursuit of unified multimodal models (UMMs) has long been hindered by a fundamental schism between multimodal understanding and generation. Current approaches typically disentangle the two and treat them as separate endeavors with disjoint objectives, missing the mutual benefits. We argue that true unification requires more than just merging two tasks. It requires a unified, foundational objective that intrinsically links them. In this paper, we introduce an insightful paradigm through the Auto-Encoder lens, i.e., regarding understanding as the encoder (I2T) that compresses images into text, and generation as the decoder (T2I) that reconstructs images from that text. To implement this, we propose UAE, where we begin by pre-training the decoder with the proposed 700k long-context image-caption pairs to direct it to "understand" the fine-grained and complex semantics from the text. We then propose Unified-GRPO via reinforcement learning (RL) to unify the two, which covers two complementary stages: (1) Generation for Understanding, where the encoder is trained to generate informative captions that maximize the decoder's reconstruction quality, enhancing its visual perception; (2) Understanding for Generation, where the decoder is refined to reconstruct from these captions, forcing it to leverage every detail and improving its long-context instruction following and generation fidelity. Our empirical results suggest that understanding can largely enhance generation (verified on GenEval), while generation, in turn, notably strengthens fine-grained visual perception like small object and color recognition (verified on MMT-Bench). This bidirectional improvement reveals a deep synergy: under the unified reconstruction objective, generation and understanding can mutually benefit each other, moving closer to truly unified multimodal intelligence.