Generative Visual Chain-of-Thought for Image Editing

📄 arXiv: 2603.01893v1 📥 PDF

作者: Zijin Yin, Tiankai Hang, Yiji Cheng, Shiyi Zhang, Runze He, Yu Xu, Chunyu Wang, Bing Li, Zheng Chang, Kongming Liang, Qinglin Lu, Zhanyu Ma

分类: cs.CV

发布日期: 2026-03-02

备注: Project page: https://pris-cv.github.io/GVCoT/


💡 一句话要点

提出生成式视觉思维链(GVCoT)框架,用于解决图像编辑中复杂场景下的精细化空间指令理解问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 视觉推理 思维链 生成模型 空间定位

📋 核心要点

  1. 现有图像编辑方法在复杂场景下,难以准确理解细粒度的空间指令,导致编辑效果不佳。
  2. GVCoT框架通过生成空间线索来定位编辑区域,并联合优化推理和编辑过程,实现更有效的视觉推理。
  3. 构建了大规模数据集GVCoT-Edit-Instruct,并采用渐进式训练策略,实验表明GVCoT优于现有方法。

📝 摘要(中文)

现有的图像编辑方法难以感知编辑位置,尤其是在复杂场景和细微的空间指令下。为了解决这个问题,我们提出了生成式视觉思维链(GVCoT),这是一个统一的框架,通过首先生成空间线索来定位目标区域,然后执行编辑,从而执行原生的视觉推理。与之前的纯文本CoT或依赖工具的视觉CoT范式不同,GVCoT以端到端的方式联合优化推理和编辑阶段生成的视觉token。这种方式促进了内在空间推理能力的出现,并能够更有效地利用视觉领域的线索。训练GCVoT的主要挑战在于缺乏具有精确编辑区域注释的大规模编辑数据;为此,我们构建了GVCoT-Edit-Instruct,一个包含180万高质量样本的数据集,涵盖19个任务。我们采用渐进式训练策略:监督微调以在最终编辑之前在推理轨迹中建立基础定位能力,然后通过强化学习进一步提高推理和编辑质量。最后,我们引入了SREdit-Bench,一个新的基准,旨在全面测试模型在复杂场景和细粒度指代表达下的性能。实验表明,GVCoT在SREdit-Bench和ImgEdit上始终优于最先进的模型。我们希望我们的GVCoT能够激发未来对可解释和精确图像编辑的研究。

🔬 方法详解

问题定义:现有图像编辑方法在处理复杂场景和细粒度空间指令时,难以准确感知需要编辑的位置。这导致编辑结果不精确,无法满足用户对精细化编辑的需求。现有方法要么依赖文本信息进行推理,要么依赖外部工具,缺乏内在的视觉推理能力。

核心思路:GVCoT的核心思路是让模型具备“视觉思维链”的能力,即通过生成一系列视觉线索(spatial cues)来逐步定位需要编辑的区域,类似于人类在进行图像编辑时先思考“哪里需要修改”。通过联合优化推理和编辑过程,使模型能够更好地利用视觉信息,从而提高编辑的准确性和质量。

技术框架:GVCoT框架包含两个主要阶段:推理阶段和编辑阶段。在推理阶段,模型接收输入图像和编辑指令,生成一系列视觉token作为空间线索,用于定位需要编辑的区域。在编辑阶段,模型利用这些空间线索对图像进行编辑,生成最终的编辑结果。整个框架采用端到端的方式进行训练,联合优化推理和编辑过程。

关键创新:GVCoT的关键创新在于引入了生成式的视觉思维链,使模型能够进行原生的视觉推理。与传统的文本CoT或依赖工具的视觉CoT方法不同,GVCoT直接在视觉领域进行推理,避免了跨模态转换带来的信息损失。此外,GVCoT采用端到端的训练方式,使模型能够更好地学习视觉推理和编辑之间的关系。

关键设计:GVCoT采用渐进式训练策略。首先,使用监督学习在GVCoT-Edit-Instruct数据集上对模型进行微调,使其具备基本的定位能力。然后,使用强化学习进一步提高推理和编辑的质量。损失函数的设计包括编辑损失和推理损失,用于约束编辑结果和推理过程。具体的网络结构细节(如Transformer的具体配置)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GVCoT在SREdit-Bench和ImgEdit两个基准测试中均取得了优于现有最佳模型的性能。SREdit-Bench是一个新的基准,专门用于测试模型在复杂场景和细粒度指代表达下的图像编辑能力。具体性能数据和提升幅度在论文中给出,但摘要中未明确提及具体数值。

🎯 应用场景

GVCoT框架可应用于各种图像编辑场景,例如人像美化、物体替换、场景修改等。该研究的实际价值在于提高了图像编辑的精度和可控性,使得用户能够更加方便地实现复杂的编辑需求。未来,GVCoT有望应用于自动驾驶、机器人视觉等领域,实现更加智能化的图像处理。

📄 摘要(原文)

Existing image editing methods struggle to perceive where to edit, especially under complex scenes and nuanced spatial instructions. To address this issue, we propose Generative Visual Chain-of-Thought (GVCoT), a unified framework that performs native visual reasoning by first generating spatial cues to localize the target region and then executing the edit. Unlike prior text-only CoT or tool-dependent visual CoT paradigms, GVCoT jointly optimizes visual tokens generated during the reasoning and editing phases in an end-to-end manner. This way fosters the emergence of innate spatial reasoning ability and enables more effective utilization of visual-domain cues. The main challenge of training GCVoT lies in the scarcity of large-scale editing data with precise edit region annotations; to this end, we construct GVCoT-Edit-Instruct, a dataset of 1.8M high-quality samples spanning 19 tasks. We adopt a progressive training strategy: supervised fine-tuning to build foundational localization ability in reasoning trace before final editing, followed by reinforcement learning to further improve reasoning and editing quality. Finally, we introduce SREdit-Bench, a new benchmark designed to comprehensively stress-test models under sophisticated scenes and fine-grained referring expressions. Experiments demonstrate that GVCoT consistently outperforms state-of-the-art models on SREdit-Bench and ImgEdit. We hope our GVCoT will inspire future research toward interpretable and precise image editing.