InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

📄 arXiv: 2603.01586v1 📥 PDF

作者: Yecong Wan, Fan Li, Chunwei Wang, Hao Wu, Mingwen Shao, Wangmeng Zuo

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

提出InterCoG框架,通过交错的链式 grounding 推理实现空间精细的图像编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 空间推理 视觉Grounding 多模态学习 链式推理

📋 核心要点

  1. 现有统一编辑模型难以在复杂场景中进行精细编辑,尤其当目标不明显且需要空间推理时。
  2. InterCoG通过文本中的空间关系推理定位编辑目标,再进行视觉grounding和编辑描述重写。
  3. 通过多模态grounding重建监督和推理对齐,提升空间定位精度和推理可解释性,并在GroundEdit数据集上验证有效性。

📝 摘要(中文)

本文提出了一种名为InterCoG的文本-视觉交错链式grounding推理框架,用于在复杂真实场景中进行精细的图像编辑。现有统一编辑模型在通用目标编辑任务中表现出色,但在复杂多实体场景中进行精细编辑仍然是一个重大挑战,尤其是在目标不明显且需要空间推理的情况下。InterCoG的核心思想是首先在包含空间关系细节的文本中进行对象位置推理,明确推断编辑目标的位置和身份。然后,通过在像素空间中使用生成的边界框和掩码突出显示编辑目标来进行视觉grounding,最后重写编辑描述以指定预期结果。为了进一步促进这种范式,我们提出了两个辅助训练模块:多模态grounding重建监督和多模态grounding推理对齐,以分别加强空间定位精度和推理可解释性。我们还构建了GroundEdit-45K数据集,其中包含45K个面向grounding的编辑样本,带有详细的推理注释,以及用于grounding感知编辑评估的GroundEdit-Bench。大量实验证实了我们的方法在空间复杂和多实体场景下进行高精度编辑的优越性。

🔬 方法详解

问题定义:现有图像编辑模型在处理复杂场景,特别是多实体场景时,难以进行精细的空间编辑。这些场景中的编辑目标往往不明显,需要模型具备强大的空间推理能力才能准确定位和修改。现有方法缺乏对空间关系的显式建模和推理,导致编辑结果不准确或不符合预期。

核心思路:InterCoG的核心思路是将文本中的空间关系信息与图像中的视觉信息进行有效结合,通过交错的链式grounding推理过程,逐步明确编辑目标的位置和身份。首先利用文本信息进行空间推理,确定目标的大致位置,然后通过视觉grounding在图像中精确定位目标,最后结合文本和视觉信息进行图像编辑。

技术框架:InterCoG框架包含以下几个主要模块:1) 文本空间推理模块:该模块接收包含空间关系的文本描述,通过分析文本中的空间关系词汇(如“左边”、“右边”、“上方”等)来推断编辑目标的位置。2) 视觉Grounding模块:该模块接收文本空间推理模块的输出和原始图像,利用视觉信息在图像中定位编辑目标,并生成目标的边界框和掩码。3) 编辑描述重写模块:该模块结合文本描述和视觉grounding结果,生成更精确的编辑描述,明确指定编辑的目标和方式。4) 图像编辑模块:该模块接收原始图像和编辑描述,利用图像编辑模型(如扩散模型)进行图像编辑。

关键创新:InterCoG的关键创新在于提出了文本-视觉交错的链式grounding推理过程。与现有方法直接将文本描述输入图像编辑模型不同,InterCoG首先利用文本进行空间推理,然后利用视觉信息进行grounding,最后结合两者进行编辑。这种交错的推理方式能够更有效地利用文本和视觉信息,提高编辑的精度和可控性。此外,还提出了多模态grounding重建监督和推理对齐,进一步提升模型性能。

关键设计:1) 多模态Grounding重建监督:该模块通过重建文本描述和视觉grounding结果来监督模型的学习,鼓励模型学习更准确的空间关系表示和视觉特征表示。2) 多模态Grounding推理对齐:该模块通过对齐文本空间推理模块和视觉grounding模块的输出,鼓励模型学习一致的空间推理和视觉grounding结果。3) GroundEdit-45K数据集:构建了一个包含45K个面向grounding的编辑样本的数据集,用于训练和评估InterCoG模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了GroundEdit-45K数据集和GroundEdit-Bench评估基准,并在该数据集上进行了大量实验。实验结果表明,InterCoG在空间复杂和多实体场景下的图像编辑任务中,显著优于现有方法。具体性能提升数据未知,但论文强调了其在高度精确编辑方面的优越性。

🎯 应用场景

InterCoG技术可应用于图像编辑、图像生成、虚拟现实、增强现实等领域。例如,在电商领域,可以用于快速生成商品的不同摆放位置和角度的展示图;在游戏开发领域,可以用于快速生成游戏场景中的各种物体和人物;在虚拟现实和增强现实领域,可以用于创建更逼真和交互性更强的虚拟环境。

📄 摘要(原文)

Emerging unified editing models have demonstrated strong capabilities in general object editing tasks. However, it remains a significant challenge to perform fine-grained editing in complex multi-entity scenes, particularly those where targets are not visually salient and require spatial reasoning. To this end, we propose InterCoG, a novel text-vision Interleaved Chain-of-Grounding reasoning framework for fine-grained image editing in complex real-world scenes. The key insight of InterCoG is to first perform object position reasoning solely within text that includes spatial relation details to explicitly deduce the location and identity of the edited target. It then conducts visual grounding via highlighting the editing targets with generated bounding boxes and masks in pixel space, and finally rewrites the editing description to specify the intended outcomes. To further facilitate this paradigm, we propose two auxiliary training modules: multimodal grounding reconstruction supervision and multimodal grounding reasoning alignment to enforce spatial localization accuracy and reasoning interpretability, respectively. We also construct GroundEdit-45K, a dataset comprising 45K grounding-oriented editing samples with detailed reasoning annotations, and GroundEdit-Bench for grounding-aware editing evaluation. Extensive experiments substantiate the superiority of our approach in highly precise edits under spatially intricate and multi-entity scenes.