I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing

📄 arXiv: 2601.03741v1 📥 PDF

作者: Jinghan Yu, Junhao Xiao, Chenyu Zhu, Jiaming Li, Jia Li, HanMing Deng, Xirui Wang, Guoli Jia, Jianjun Li, Zhiyuan Ma, Xiang Bai, Bowen Zhou

分类: cs.CV

发布日期: 2026-01-07


💡 一句话要点

I2E:提出一种基于可交互环境的文本引导图像编辑框架,解决复杂组合编辑任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本引导图像编辑 组合编辑 视觉-语言模型 思维链推理 对象级别控制 可交互环境 物理感知

📋 核心要点

  1. 现有文本引导图像编辑方法在处理需要精细控制和复杂空间推理的组合编辑任务时存在局限性。
  2. I2E提出“分解-然后-行动”范式,将图像编辑转化为结构化环境中的交互过程,实现对象级别的控制。
  3. 实验结果表明,I2E在处理复杂指令、保持物理合理性和多轮编辑稳定性方面优于现有方法。

📝 摘要(中文)

现有的文本引导图像编辑方法主要依赖于端到端的像素级图像修复范式。尽管这种范式在简单场景中取得了成功,但在需要精确局部控制和复杂多对象空间推理的组合编辑任务中仍然面临显著挑战。这种范式受到以下因素的严重限制:1) 规划和执行的隐式耦合;2) 缺乏对象级别的控制粒度;3) 依赖于非结构化的、以像素为中心的建模。为了解决这些限制,我们提出了I2E,一种新颖的“分解-然后-行动”范式,它将图像编辑重新定义为结构化环境中可操作的交互过程。I2E利用分解器将非结构化图像转换为离散的、可操作的对象层,然后引入一个具有物理感知能力的视觉-语言-动作代理,通过思维链推理将复杂指令解析为一系列原子动作。此外,我们还构建了I2E-Bench,一个专为多实例空间推理和高精度编辑设计的基准。在I2E-Bench和多个公共基准上的实验结果表明,I2E在处理复杂组合指令、保持物理合理性和确保多轮编辑稳定性方面显著优于最先进的方法。

🔬 方法详解

问题定义:现有文本引导图像编辑方法主要采用端到端的像素级图像修复范式,难以处理需要精确局部控制和复杂多对象空间推理的组合编辑任务。这些方法存在规划与执行耦合、缺乏对象级别控制粒度以及依赖非结构化像素建模等问题,导致编辑效果不佳,难以满足复杂场景的需求。

核心思路:I2E的核心思路是将图像编辑过程分解为两个阶段:首先,使用分解器将图像分解为可操作的对象层;然后,利用一个具有物理感知能力的视觉-语言-动作代理,通过思维链推理将文本指令转化为一系列原子动作。这种“分解-然后-行动”的范式能够解耦规划和执行,提供对象级别的控制粒度,并利用结构化的对象表示来提升编辑效果。

技术框架:I2E的技术框架主要包含两个模块:1) 图像分解器(Decomposer):将输入的图像分解为多个离散的、可操作的对象层,每个对象层包含对象的语义信息和空间位置信息。2) 视觉-语言-动作代理(Vision-Language-Action Agent):接收文本指令和分解后的对象层作为输入,通过思维链推理将指令解析为一系列原子动作,并对对象层进行相应的操作。框架通过迭代执行这些原子动作,逐步完成图像编辑任务。

关键创新:I2E的关键创新在于其“分解-然后-行动”的范式,以及引入了具有物理感知能力的视觉-语言-动作代理。与现有方法相比,I2E能够更好地处理复杂组合指令,保持编辑结果的物理合理性,并支持多轮编辑。此外,I2E还提出了I2E-Bench,一个专为多实例空间推理和高精度编辑设计的基准。

关键设计:图像分解器可能采用Mask R-CNN等实例分割模型,输出每个对象的mask和bounding box。视觉-语言-动作代理可能基于Transformer架构,利用预训练的语言模型(如GPT-3)进行思维链推理。损失函数可能包括编辑结果与目标文本描述的语义一致性损失、编辑前后图像的物理合理性损失等。原子动作的设计需要仔细考虑,例如移动、缩放、旋转、添加/删除对象等。

📊 实验亮点

I2E在I2E-Bench和多个公共基准上进行了实验,结果表明I2E显著优于最先进的方法。例如,在处理复杂组合指令时,I2E的编辑成功率比现有方法提高了XX%。此外,I2E在保持物理合理性和多轮编辑稳定性方面也表现出显著优势,能够生成更逼真、更符合用户意图的编辑结果。

🎯 应用场景

I2E具有广泛的应用前景,例如图像内容创作、虚拟现实/增强现实内容生成、电商产品图像编辑、以及自动化设计等领域。该方法能够帮助用户更轻松地编辑图像,实现个性化的视觉表达,并提高图像编辑的效率和质量。未来,I2E有望成为图像编辑领域的重要工具。

📄 摘要(原文)

Existing text-guided image editing methods primarily rely on end-to-end pixel-level inpainting paradigm. Despite its success in simple scenarios, this paradigm still significantly struggles with compositional editing tasks that require precise local control and complex multi-object spatial reasoning. This paradigm is severely limited by 1) the implicit coupling of planning and execution, 2) the lack of object-level control granularity, and 3) the reliance on unstructured, pixel-centric modeling. To address these limitations, we propose I2E, a novel "Decompose-then-Action" paradigm that revisits image editing as an actionable interaction process within a structured environment. I2E utilizes a Decomposer to transform unstructured images into discrete, manipulable object layers and then introduces a physics-aware Vision-Language-Action Agent to parse complex instructions into a series of atomic actions via Chain-of-Thought reasoning. Further, we also construct I2E-Bench, a benchmark designed for multi-instance spatial reasoning and high-precision editing. Experimental results on I2E-Bench and multiple public benchmarks demonstrate that I2E significantly outperforms state-of-the-art methods in handling complex compositional instructions, maintaining physical plausibility, and ensuring multi-turn editing stability.