IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

📄 arXiv: 2509.26231v1 📥 PDF

作者: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi

分类: cs.CV

发布日期: 2025-09-30

备注: ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出IMG,通过隐式多模态引导校准扩散模型,提升图文对齐精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 多模态对齐 隐式引导 文本图像生成 大型语言模型

📋 核心要点

  1. 现有扩散模型在多模态对齐方面存在挑战,微调数据有限,编辑方法影响图像质量。
  2. IMG通过MLLM识别错位,利用隐式对齐器操纵扩散条件特征,实现图像重生成和对齐。
  3. 实验表明IMG在SDXL等模型上优于现有方法,且可作为插件增强其他对齐方法。

📝 摘要(中文)

确保扩散模型生成的图像与输入提示之间精确的多模态对齐一直是一个长期存在的挑战。早期工作使用高质量偏好数据微调扩散权重,但这些数据往往有限且难以扩展。最近基于编辑的方法进一步细化生成图像的局部区域,但可能会损害整体图像质量。本文提出隐式多模态引导(IMG),这是一种新颖的基于重生成的的多模态对齐框架,不需要额外的数据或编辑操作。具体来说,给定一个生成的图像及其提示,IMG a) 利用多模态大型语言模型(MLLM)来识别错位;b) 引入一个隐式对齐器,它操纵扩散条件特征以减少错位并实现重新生成;c) 将重新对齐目标制定为可训练的目标,即迭代更新的偏好目标。在SDXL、SDXL-DPO和FLUX上的大量定性和定量评估表明,IMG优于现有的对齐方法。此外,IMG作为一个灵活的即插即用适配器,无缝地增强了先前的基于微调的对齐方法。

🔬 方法详解

问题定义:论文旨在解决扩散模型生成图像时,图像内容与输入文本提示之间多模态对齐不精确的问题。现有方法,如基于微调的方法,依赖于有限且难以扩展的高质量偏好数据;而基于编辑的方法,虽然可以改善局部区域的对齐,但可能损害整体图像质量。这些方法都未能很好地解决全局一致性和精确对齐的难题。

核心思路:IMG的核心思路是利用多模态大语言模型(MLLM)来识别生成图像和文本提示之间的错位,然后通过一个隐式对齐器来操纵扩散模型的条件特征,从而引导图像进行重新生成,以减少错位。这种方法避免了对额外数据的依赖和对图像的直接编辑,从而保持了图像的整体质量。

技术框架:IMG框架包含以下几个主要步骤:1) 给定一个生成的图像和对应的文本提示;2) 使用MLLM分析图像和文本,识别两者之间的错位;3) 引入一个可训练的隐式对齐器,该对齐器接收MLLM的输出,并对扩散模型的条件特征进行调整;4) 使用调整后的条件特征重新生成图像;5) 将重新对齐的目标形式化为一个可训练的偏好目标,并通过迭代更新来优化对齐器。

关键创新:IMG的关键创新在于引入了隐式对齐器的概念,它不是直接编辑图像像素,而是通过操纵扩散模型的条件特征来引导图像生成过程,从而实现多模态对齐。此外,IMG使用MLLM来自动识别错位,避免了人工标注的需求。迭代更新的偏好目标也使得模型能够逐步提高对齐精度。

关键设计:IMG的关键设计包括:1) MLLM的选择和使用,用于准确识别图像和文本之间的错位;2) 隐式对齐器的网络结构和训练方式,使其能够有效地操纵扩散模型的条件特征;3) 偏好目标的定义,用于衡量重新生成图像的对齐程度,并指导对齐器的训练;4) 迭代更新策略,通过多次重新生成和对齐,逐步提高图像的对齐精度。

📊 实验亮点

IMG在SDXL、SDXL-DPO和FLUX等扩散模型上进行了广泛的评估,实验结果表明,IMG在多模态对齐方面显著优于现有的方法。定性和定量结果均表明,IMG能够更准确地将生成图像与文本提示对齐,并且可以作为即插即用适配器,提升现有基于微调的对齐方法的性能。

🎯 应用场景

IMG可广泛应用于文图生成、图像编辑、内容创作等领域。它能提升生成图像与文本描述的一致性,改善用户体验,并可作为插件集成到现有的扩散模型中。该研究对提高AI生成内容的可控性和可靠性具有重要意义,未来可应用于智能设计、虚拟现实等领域。

📄 摘要(原文)

Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.