Generative Visual Chain-of-Thought for Image Editing

作者: Zijin Yin, Tiankai Hang, Yiji Cheng, Shiyi Zhang, Runze He, Yu Xu, Chunyu Wang, Bing Li, Zheng Chang, Kongming Liang, Qinglin Lu, Zhanyu Ma

分类: cs.CV

发布日期: 2026-03-02

备注: Project page: https://pris-cv.github.io/GVCoT/

💡 一句话要点

提出生成式视觉思维链（GVCoT）框架，用于解决图像编辑中复杂场景下的精细化空间指令理解问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 视觉推理 思维链 生成模型 空间定位

📋 核心要点

现有图像编辑方法在复杂场景下，难以准确理解细粒度的空间指令，导致编辑效果不佳。
GVCoT框架通过生成空间线索来定位编辑区域，并联合优化推理和编辑过程，实现更有效的视觉推理。
构建了大规模数据集GVCoT-Edit-Instruct，并采用渐进式训练策略，实验表明GVCoT优于现有方法。

📝 摘要（中文）

现有的图像编辑方法难以感知编辑位置，尤其是在复杂场景和细微的空间指令下。为了解决这个问题，我们提出了生成式视觉思维链（GVCoT），这是一个统一的框架，通过首先生成空间线索来定位目标区域，然后执行编辑，从而执行原生的视觉推理。与之前的纯文本CoT或依赖工具的视觉CoT范式不同，GVCoT以端到端的方式联合优化推理和编辑阶段生成的视觉token。这种方式促进了内在空间推理能力的出现，并能够更有效地利用视觉领域的线索。训练GCVoT的主要挑战在于缺乏具有精确编辑区域注释的大规模编辑数据；为此，我们构建了GVCoT-Edit-Instruct，一个包含180万高质量样本的数据集，涵盖19个任务。我们采用渐进式训练策略：监督微调以在最终编辑之前在推理轨迹中建立基础定位能力，然后通过强化学习进一步提高推理和编辑质量。最后，我们引入了SREdit-Bench，一个新的基准，旨在全面测试模型在复杂场景和细粒度指代表达下的性能。实验表明，GVCoT在SREdit-Bench和ImgEdit上始终优于最先进的模型。我们希望我们的GVCoT能够激发未来对可解释和精确图像编辑的研究。

🔬 方法详解

问题定义：现有图像编辑方法在处理复杂场景和细粒度空间指令时，难以准确感知需要编辑的位置。这导致编辑结果不精确，无法满足用户对精细化编辑的需求。现有方法要么依赖文本信息进行推理，要么依赖外部工具，缺乏内在的视觉推理能力。

核心思路：GVCoT的核心思路是让模型具备“视觉思维链”的能力，即通过生成一系列视觉线索（spatial cues）来逐步定位需要编辑的区域，类似于人类在进行图像编辑时先思考“哪里需要修改”。通过联合优化推理和编辑过程，使模型能够更好地利用视觉信息，从而提高编辑的准确性和质量。

技术框架：GVCoT框架包含两个主要阶段：推理阶段和编辑阶段。在推理阶段，模型接收输入图像和编辑指令，生成一系列视觉token作为空间线索，用于定位需要编辑的区域。在编辑阶段，模型利用这些空间线索对图像进行编辑，生成最终的编辑结果。整个框架采用端到端的方式进行训练，联合优化推理和编辑过程。

关键创新：GVCoT的关键创新在于引入了生成式的视觉思维链，使模型能够进行原生的视觉推理。与传统的文本CoT或依赖工具的视觉CoT方法不同，GVCoT直接在视觉领域进行推理，避免了跨模态转换带来的信息损失。此外，GVCoT采用端到端的训练方式，使模型能够更好地学习视觉推理和编辑之间的关系。

关键设计：GVCoT采用渐进式训练策略。首先，使用监督学习在GVCoT-Edit-Instruct数据集上对模型进行微调，使其具备基本的定位能力。然后，使用强化学习进一步提高推理和编辑的质量。损失函数的设计包括编辑损失和推理损失，用于约束编辑结果和推理过程。具体的网络结构细节（如Transformer的具体配置）未知。

🖼️ 关键图片

📊 实验亮点

GVCoT在SREdit-Bench和ImgEdit两个基准测试中均取得了优于现有最佳模型的性能。SREdit-Bench是一个新的基准，专门用于测试模型在复杂场景和细粒度指代表达下的图像编辑能力。具体性能数据和提升幅度在论文中给出，但摘要中未明确提及具体数值。

🎯 应用场景

GVCoT框架可应用于各种图像编辑场景，例如人像美化、物体替换、场景修改等。该研究的实际价值在于提高了图像编辑的精度和可控性，使得用户能够更加方便地实现复杂的编辑需求。未来，GVCoT有望应用于自动驾驶、机器人视觉等领域，实现更加智能化的图像处理。

📄 摘要（原文）

Existing image editing methods struggle to perceive where to edit, especially under complex scenes and nuanced spatial instructions. To address this issue, we propose Generative Visual Chain-of-Thought (GVCoT), a unified framework that performs native visual reasoning by first generating spatial cues to localize the target region and then executing the edit. Unlike prior text-only CoT or tool-dependent visual CoT paradigms, GVCoT jointly optimizes visual tokens generated during the reasoning and editing phases in an end-to-end manner. This way fosters the emergence of innate spatial reasoning ability and enables more effective utilization of visual-domain cues. The main challenge of training GCVoT lies in the scarcity of large-scale editing data with precise edit region annotations; to this end, we construct GVCoT-Edit-Instruct, a dataset of 1.8M high-quality samples spanning 19 tasks. We adopt a progressive training strategy: supervised fine-tuning to build foundational localization ability in reasoning trace before final editing, followed by reinforcement learning to further improve reasoning and editing quality. Finally, we introduce SREdit-Bench, a new benchmark designed to comprehensively stress-test models under sophisticated scenes and fine-grained referring expressions. Experiments demonstrate that GVCoT consistently outperforms state-of-the-art models on SREdit-Bench and ImgEdit. We hope our GVCoT will inspire future research toward interpretable and precise image editing.

Generative Visual Chain-of-Thought for Image Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理