From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

📄 arXiv: 2603.02712v1 📥 PDF

作者: Ruxue Yan, Xubo Liu, Wenya Guo, Zhengkun Zhang, Ying Zhang, Xiaojie Yuan

分类: cs.CV, cs.MM, eess.IV

发布日期: 2026-03-03


💡 一句话要点

提出CoR-Painter,通过约束推理指导自回归图像生成,解决空间歧义问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自回归图像生成 约束推理 空间关系 图像合成 文本到图像 视觉约束 GRPO策略

📋 核心要点

  1. 现有自回归图像生成方法缺乏对图像整体结构的推理,导致空间歧义和不真实的物体重叠。
  2. CoR-Painter通过引入约束推理,先推导视觉约束(How),再生成详细描述(What),实现“How-to-What”的生成范例。
  3. 实验表明,CoR-Painter在空间指标上取得了显著提升,例如在T2I-CompBench上提升了5.41%。

📝 摘要(中文)

自回归图像生成技术近年来取得了显著进展,尤其是在引入思维链和强化学习之后。然而,现有方法仅仅通过重写输入提示来指定要描绘的“What”细节,而未能从根本上推理图像的整体结构“How”。这种固有的局限性导致了持续存在的问题,例如空间歧义,直接导致不真实的物体重叠。为了弥合这一差距,我们提出了CoR-Painter,这是一个新颖的框架,它通过引入约束推理来指导自回归生成,从而开创了“How-to-What”的范例。具体来说,它首先通过从输入提示中推导出一组视觉约束来推断“How to draw”,这些约束明确地控制空间关系、关键属性和构图规则。这些约束指导后续生成详细的描述“What to draw”,为准确的视觉合成提供结构合理且连贯的基础。此外,我们引入了一种双目标GRPO策略,专门优化文本约束推理和视觉投影过程,以确保整个生成流程的连贯性和质量。在T2I-CompBench、GenEval和WISE上的大量实验表明,我们的方法实现了最先进的性能,在空间指标方面取得了显著的改进(例如,在T2I-CompBench上+5.41%)。

🔬 方法详解

问题定义:论文旨在解决自回归图像生成中由于缺乏对图像结构的推理而导致的空间歧义问题。现有方法主要关注于生成图像的细节内容(What),而忽略了图像的整体布局和对象之间的关系(How),导致生成图像中出现不真实的物体重叠等问题。

核心思路:CoR-Painter的核心思路是引入约束推理,将图像生成过程分解为两个阶段:首先,从文本提示中推导出视觉约束,明确图像的空间关系、关键属性和构图规则;然后,基于这些约束生成详细的图像描述。这种“How-to-What”的范例能够确保生成图像在结构上更加合理和连贯。

技术框架:CoR-Painter的整体框架包含以下几个主要模块:1) 约束推理模块:从文本提示中提取视觉约束,例如对象之间的空间关系、对象的属性等。2) 描述生成模块:基于视觉约束生成详细的图像描述。3) 图像生成模块:根据图像描述生成最终的图像。4) 双目标GRPO策略:优化文本约束推理和视觉投影过程,确保生成流程的连贯性和质量。

关键创新:CoR-Painter的关键创新在于引入了约束推理来指导自回归图像生成。与现有方法不同,CoR-Painter首先关注图像的结构(How),然后才关注图像的细节(What)。这种“How-to-What”的范例能够有效地解决空间歧义问题,并生成更加真实和连贯的图像。

关键设计:CoR-Painter的关键设计包括:1) 视觉约束的表示方法:论文采用了一种特定的方式来表示视觉约束,例如使用关系三元组来表示对象之间的空间关系。2) 双目标GRPO策略:该策略同时优化文本约束推理和视觉投影过程,以确保生成流程的连贯性和质量。具体的技术细节(如损失函数、网络结构等)在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoR-Painter在T2I-CompBench、GenEval和WISE等多个数据集上进行了实验,结果表明该方法取得了最先进的性能。尤其是在T2I-CompBench数据集上,CoR-Painter在空间指标上取得了显著的改进,提升了5.41%。这些实验结果充分证明了CoR-Painter在解决空间歧义问题方面的有效性。

🎯 应用场景

CoR-Painter在图像生成领域具有广泛的应用前景,例如可以用于生成高质量的艺术作品、逼真的游戏场景、以及用于数据增强等。该研究的实际价值在于能够提高生成图像的真实性和连贯性,从而提升用户体验。未来,该方法可以进一步扩展到视频生成、3D内容生成等领域。

📄 摘要(原文)

Autoregressive image generation has seen recent improvements with the introduction of chain-of-thought and reinforcement learning. However, current methods merely specify "What" details to depict by rewriting the input prompt, yet fundamentally fail to reason about "How" to structure the overall image. This inherent limitation gives rise to persistent issues, such as spatial ambiguity directly causing unrealistic object overlaps. To bridge this gap, we propose CoR-Painter, a novel framework that pioneers a "How-to-What" paradigm by introducing Constrained Reasoning to guide the autoregressive generation. Specifically, it first deduces "How to draw" by deriving a set of visual constraints from the input prompt, which explicitly govern spatial relationships, key attributes, and compositional rules. These constraints steer the subsequent generation of a detailed description "What to draw", providing a structurally sound and coherent basis for accurate visual synthesis. Additionally, we introduce a Dual-Objective GRPO strategy that specifically optimizes the textual constrained reasoning and visual projection processes to ensure the coherence and quality of the entire generation pipeline. Extensive experiments on T2I-CompBench, GenEval, and WISE demonstrate that our method achieves state-of-the-art performance, with significant improvements in spatial metrics (e.g., +5.41% on T2I-CompBench).