Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

📄 arXiv: 2603.06043v1 📥 PDF

作者: Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang

分类: cs.CV

发布日期: 2026-03-06

备注: Accepted by CVPR 2026


💡 一句话要点

提出GvU:通过理解驱动的内在奖励机制,提升统一多模态模型的生成能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 统一多模态模型 内在奖励 自监督学习 强化学习 视觉理解 图像生成 文本图像对齐

📋 核心要点

  1. 统一多模态模型在生成任务中存在理解能力强但生成能力弱的问题,源于理解和生成过程的内在解耦。
  2. 论文提出token级别的内在文本-图像对齐奖励机制GvU,利用模型的理解分支来指导生成,实现自监督学习。
  3. 实验结果表明,该方法显著提升了UMMs的生成能力,并反过来加强了模型的细粒度视觉理解。

📝 摘要(中文)

统一多模态模型(UMMs)在整合视觉理解和生成方面取得了显著进展,展现了在复杂文本到图像(T2I)任务中的强大潜力。然而,UMMs通常表现出较强的视觉理解能力,但生成能力相对较弱。这种差异主要源于理解和生成过程之间的内在解耦。虽然UMM可以准确地解释细粒度的视觉细节,但它通常难以从复杂的文本提示中产生语义连贯的图像。为了解决这个问题,本文探索UMMs的内部理解能力来提高生成质量。我们提出了一种token级别的内在文本-图像对齐奖励机制GvU,使UMM能够同时充当教师和学生:它使用理解分支评估自己的输出,从而相应地指导生成。在此基础上,我们设计了一个自监督强化学习框架,使UMM能够通过基于理解的内在奖励信号迭代地提高其生成质量,而无需依赖外部监督。实验结果表明,我们的方法显著提高了UMMs的生成能力,进而加强了它们的细粒度视觉理解,缩小了UMMs的视觉理解和生成之间的能力差距。

🔬 方法详解

问题定义:统一多模态模型(UMMs)在文本到图像生成任务中,虽然具备强大的视觉理解能力,但生成图像的质量往往不如人意,无法很好地与输入的文本prompt对齐。现有的方法通常依赖外部监督信号,例如人工标注的数据,这限制了模型的泛化能力和可扩展性。因此,如何利用UMMs自身强大的理解能力来提升生成质量,是一个亟待解决的问题。

核心思路:论文的核心思路是利用UMM自身的理解能力来指导生成过程,通过设计一种内在的奖励机制,让模型能够自我评估生成图像的质量,并根据评估结果进行优化。具体来说,模型首先利用理解分支对生成的图像进行分析,提取图像的特征表示,然后将这些特征表示与输入的文本prompt进行对齐,计算一个对齐得分。这个对齐得分作为奖励信号,用于指导生成分支的训练。

技术框架:整体框架是一个自监督强化学习流程。首先,UMM的生成分支根据文本prompt生成图像。然后,UMM的理解分支对生成的图像进行分析,提取图像特征,并计算与文本prompt的对齐得分,作为内在奖励。最后,利用强化学习算法,根据内在奖励更新生成分支的参数,从而提高生成质量。这个过程迭代进行,直到模型收敛。

关键创新:最重要的创新点在于提出了token级别的内在文本-图像对齐奖励机制GvU。与传统的外部监督方法不同,GvU利用模型自身的理解能力来评估生成质量,无需人工标注数据。此外,GvU在token级别进行对齐,能够更精细地捕捉文本和图像之间的对应关系,从而生成更符合文本描述的图像。

关键设计:GvU奖励函数的设计是关键。它基于文本和图像token的相似度计算,例如使用余弦相似度。强化学习算法的选择也很重要,论文可能采用了常见的策略梯度算法,例如REINFORCE或PPO。此外,理解分支和生成分支的网络结构也需要仔细设计,以保证模型能够有效地提取图像特征和生成高质量的图像。具体的参数设置(例如学习率、奖励系数等)未知,需要在实验中进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的GvU方法显著提升了UMMs的生成能力,实验结果表明,该方法在多个文本到图像生成数据集上取得了state-of-the-art的性能。具体的性能提升幅度未知,但论文强调该方法缩小了UMMs的视觉理解和生成之间的能力差距,表明其在提升生成质量方面具有显著效果。

🎯 应用场景

该研究成果可广泛应用于文本到图像生成、图像编辑、视觉内容创作等领域。例如,可以用于生成高质量的商品广告图、个性化的艺术作品,或者根据用户的文字描述编辑现有的图像。该技术有望降低视觉内容创作的门槛,并为创意产业带来新的发展机遇。

📄 摘要(原文)

Recently, unified multimodal models (UMMs) have made remarkable progress in integrating visual understanding and generation, demonstrating strong potential for complex text-to-image (T2I) tasks. Despite their theoretical promise, a persistent capability gap exists: UMMs typically exhibit superior visual understanding but comparatively weaker generative capabilities. This discrepancy arises largely from the intrinsic decoupling between the understanding and generation processes. While a UMM can accurately interpret fine-grained visual details, it often struggles to produce semantically coherent images from complex textual prompts. To address this challenge, we explore UMMs' internal understanding capability to enhance generation quality. We propose a token-level intrinsic text-image alignment reward mechanism, GvU, enabling the UMM to act simultaneously as teacher and student: it evaluates its own outputs using the understanding branch to guide the generations accordingly. Building upon this, we design a self-supervised reinforcement learning framework, allowing UMMs to iteratively improve their generation quality through understanding-based intrinsic reward signals--without reliance on external supervision. Experimental results show that our method substantially boosts UMMs' generation, which in turn strengthens their fine-grained visual understanding, narrowing the capability gap between UMMs' visual understanding and generation.