VectorEdits: A Dataset and Benchmark for Instruction-Based Editing of Vector Graphics

📄 arXiv: 2506.15903v1 📥 PDF

作者: Josef Kuchař, Marek Kadlčík, Michal Spiegel, Michal Štefánik

分类: cs.LG

发布日期: 2025-06-18


💡 一句话要点

提出VectorEdits数据集以解决基于指令的矢量图形编辑问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 矢量图形编辑 自然语言处理 数据集构建 视觉-语言模型 机器学习

📋 核心要点

  1. 现有方法在生成准确有效的矢量图形编辑时存在显著困难,尤其是在理解和执行自然语言指令方面。
  2. 论文提出了一个包含270,000对SVG图像和对应自然语言指令的数据集,以支持基于指令的矢量图形编辑模型的训练和评估。
  3. 初步实验结果显示,当前的先进语言模型在执行编辑任务时的表现不佳,强调了该领域的研究需求。

📝 摘要(中文)

我们介绍了一个大规模的数据集,用于基于指令的矢量图像编辑,包含超过270,000对SVG图像和自然语言编辑指令。该数据集支持基于文本命令修改矢量图形的模型训练与评估。我们描述了数据收集过程,包括通过CLIP相似度进行图像配对和使用视觉-语言模型生成指令。初步实验表明,现有的先进大型语言模型在生成准确有效的编辑时面临挑战,突显了该任务的复杂性。为促进自然语言驱动的矢量图形生成与编辑研究,我们将本研究中创建的资源公开发布。

🔬 方法详解

问题定义:本论文旨在解决基于自然语言指令的矢量图形编辑问题。现有方法在理解和执行这些指令时存在准确性和有效性不足的挑战。

核心思路:论文的核心思路是构建一个大规模的数据集,结合图像和自然语言指令,以便训练模型进行矢量图形的指令驱动编辑。通过这种方式,模型能够学习如何根据文本指令进行图形修改。

技术框架:整体架构包括数据收集、图像配对和指令生成三个主要模块。数据收集通过CLIP模型进行图像相似度匹配,指令生成则利用视觉-语言模型来创建自然语言描述。

关键创新:最重要的技术创新在于构建了一个大规模的指令-图像配对数据集,这在当前的研究中尚属首次。与现有方法相比,该数据集提供了更丰富的训练样本,能够显著提升模型的学习效果。

关键设计:在数据集构建过程中,采用了高效的图像配对算法和先进的视觉-语言模型,确保生成的指令与图像之间具有高相关性。此外,数据集的规模和多样性也是其设计中的关键考虑因素。

📊 实验亮点

实验结果表明,当前的先进大型语言模型在执行基于指令的矢量图形编辑任务时表现不佳,准确性和有效性均未达到预期。这一发现强调了该领域的研究需求,并为未来的改进提供了方向。

🎯 应用场景

该研究的潜在应用领域包括图形设计、游戏开发和教育等。通过提供一个标准化的数据集,研究人员和开发者可以更方便地训练和评估基于自然语言的矢量图形编辑模型,从而推动相关技术的发展和应用。

📄 摘要(原文)

We introduce a large-scale dataset for instruction-guided vector image editing, consisting of over 270,000 pairs of SVG images paired with natural language edit instructions. Our dataset enables training and evaluation of models that modify vector graphics based on textual commands. We describe the data collection process, including image pairing via CLIP similarity and instruction generation with vision-language models. Initial experiments with state-of-the-art large language models reveal that current methods struggle to produce accurate and valid edits, underscoring the challenge of this task. To foster research in natural language-driven vector graphic generation and editing, we make our resources created within this work publicly available.