MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing

📄 arXiv: 2601.04589v1 📥 PDF

作者: Zihao Lin, Wanrong Zhu, Jiuxiang Gu, Jihyung Kil, Christopher Tensmeyer, Lin Zhang, Shilong Liu, Ruiyi Zhang, Lifu Huang, Vlad I. Morariu, Tong Sun

分类: cs.CV

发布日期: 2026-01-08


💡 一句话要点

提出MiLDEAgent,解决多层设计文档的细粒度编辑难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多层文档编辑 自然语言编辑 多模态推理 强化学习 图像编辑

📋 核心要点

  1. 现有方法在多层设计文档编辑方面存在不足,主要集中于单层图像编辑或多层生成,缺乏对文档层结构的理解和推理能力。
  2. MiLDEAgent通过结合强化学习训练的多模态推理器和图像编辑器,实现了对文档层结构的理解和有针对性的修改。
  3. MiLDEAgent在MiLDEBench上显著优于开源基线,并达到与闭源模型相当的性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于推理的多层文档编辑框架MiLDEAgent,用于解决从自然语言指令编辑多层设计文档(如海报)的问题。该框架结合了强化学习训练的多模态推理器,用于逐层理解,以及图像编辑器,用于有针对性的修改。为了系统地评估该任务,本文构建了一个包含超过2万个设计文档和编辑指令的人工数据集MiLDEBench。同时,提出了一个任务特定的评估协议MiLDEEval,涵盖指令遵循、布局一致性、美学和文本渲染四个维度。实验结果表明,现有方法泛化能力不足,而MiLDEAgent实现了强大的层感知推理和精确编辑,显著优于所有开源基线,并达到与闭源模型相当的性能,为多层文档编辑建立了首个强大的基线。

🔬 方法详解

问题定义:论文旨在解决多层设计文档(如海报)的自然语言编辑问题。现有方法主要集中于单层图像编辑或多层生成,忽略了设计文档的层级结构,缺乏对各层内容和关系的理解,导致无法根据指令进行精确的修改。现有方法的痛点在于无法进行细粒度的、层感知的推理和编辑。

核心思路:论文的核心思路是利用多模态推理器理解设计文档的层级结构和内容,然后使用图像编辑器对特定层进行修改。通过强化学习训练推理器,使其能够根据指令选择需要修改的层,并协调各层之间的修改,从而实现精确的编辑。

技术框架:MiLDEAgent框架包含两个主要模块:多模态推理器和图像编辑器。多模态推理器负责理解设计文档的层级结构和内容,并根据指令选择需要修改的层。图像编辑器负责对选定的层进行修改。整个流程如下:首先,将设计文档和编辑指令输入到多模态推理器中。推理器输出需要修改的层和修改方式。然后,将这些信息输入到图像编辑器中,对选定的层进行修改。最后,将修改后的设计文档输出。

关键创新:论文的关键创新在于提出了一个基于推理的多层文档编辑框架MiLDEAgent,该框架能够理解设计文档的层级结构和内容,并根据指令选择需要修改的层。此外,论文还构建了一个包含超过2万个设计文档和编辑指令的人工数据集MiLDEBench,以及一个任务特定的评估协议MiLDEEval。

关键设计:多模态推理器使用Transformer架构,输入包括设计文档的图像特征、文本特征和层级结构信息。推理器通过强化学习进行训练,奖励函数包括指令遵循、布局一致性、美学和文本渲染四个方面。图像编辑器可以使用现有的图像编辑模型,例如Stable Diffusion。论文对奖励函数的权重进行了调整,以平衡各个方面的性能。

📊 实验亮点

MiLDEAgent在MiLDEBench上取得了显著的性能提升,显著优于所有开源基线,并在指令遵循、布局一致性、美学和文本渲染四个方面都取得了较好的结果。MiLDEAgent的性能与闭源模型相当,证明了其在多层文档编辑方面的有效性。

🎯 应用场景

该研究成果可应用于自动化设计文档编辑、海报生成、广告设计等领域。通过自然语言指令,用户可以方便地修改设计文档,提高设计效率。未来,该技术还可以应用于更复杂的文档编辑任务,例如PPT制作、网页设计等。

📄 摘要(原文)

Real-world design documents (e.g., posters) are inherently multi-layered, combining decoration, text, and images. Editing them from natural-language instructions requires fine-grained, layer-aware reasoning to identify relevant layers and coordinate modifications. Prior work largely overlooks multi-layer design document editing, focusing instead on single-layer image editing or multi-layer generation, which assume a flat canvas and lack the reasoning needed to determine what and where to modify. To address this gap, we introduce the Multi-Layer Document Editing Agent (MiLDEAgent), a reasoning-based framework that combines an RL-trained multimodal reasoner for layer-wise understanding with an image editor for targeted modifications. To systematically benchmark this setting, we introduce the MiLDEBench, a human-in-the-loop corpus of over 20K design documents paired with diverse editing instructions. The benchmark is complemented by a task-specific evaluation protocol, MiLDEEval, which spans four dimensions including instruction following, layout consistency, aesthetics, and text rendering. Extensive experiments on 14 open-source and 2 closed-source models reveal that existing approaches fail to generalize: open-source models often cannot complete multi-layer document editing tasks, while closed-source models suffer from format violations. In contrast, MiLDEAgent achieves strong layer-aware reasoning and precise editing, significantly outperforming all open-source baselines and attaining performance comparable to closed-source models, thereby establishing the first strong baseline for multi-layer document editing.