Generating Sketches in a Hierarchical Auto-Regressive Process for Flexible Sketch Drawing Manipulation at Stroke-Level

📄 arXiv: 2511.07889v1 📥 PDF

作者: Sicong Zang, Shuhui Gao, Zhijun Fang

分类: cs.CV, cs.AI

发布日期: 2025-11-11

备注: Accepted by AAAI 2026


💡 一句话要点

提出一种分层自回归草图生成方法,实现笔画级灵活操控

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 草图生成 自回归模型 分层结构 笔画级别控制 可控生成

📋 核心要点

  1. 现有草图生成方法缺乏灵活性,需要在生成前确定所有笔画的控制条件,无法在生成过程中进行调整。
  2. 本文提出分层自回归的草图生成框架,将草图生成分解为笔画预测、锚定和转换三个阶段,实现笔画级别的灵活操控。
  3. 通过自回归方式,模型能够考虑已生成笔画的信息,从而在合适的位置生成合适的笔画,提升整体生成效果。

📝 摘要(中文)

本文提出了一种分层自回归草图生成过程,旨在实现对草图的可控生成,即以期望的特定模式生成草图。现有方法通过编辑笔画嵌入的值来控制笔画级别的草图特征,但需要在生成开始前同时收集所有编辑过的条件并输入到生成器中,导致生成过程中无法进行进一步的操作。为了更灵活地操控草图绘制,本文将草图生成过程分解为三个阶段的分层结构:1) 预测笔画嵌入,表示要绘制的笔画;2) 将预测的笔画锚定在画布上;3) 将嵌入转换为一系列绘制动作,形成完整的草图。此外,笔画预测、锚定和转换都是自回归进行的,即考虑最近生成的笔画及其位置来预测当前笔画,引导模型在合适的位置生成合适的笔画,从而有利于完整草图的生成。通过调整暴露的可编辑笔画嵌入,可以在生成过程中的任何时间灵活地操控笔画级别的草图绘制。

🔬 方法详解

问题定义:现有草图生成方法的主要痛点在于缺乏灵活性。为了控制草图的生成,现有方法通常需要预先定义好所有笔画的嵌入表示,并在生成开始前一次性输入到生成器中。这意味着在草图生成过程中,用户无法对已经生成的笔画进行修改或调整,从而限制了草图的创作自由度和交互性。

核心思路:本文的核心思路是将草图生成过程分解为多个可控的步骤,并采用自回归的方式逐步生成草图。具体来说,模型首先预测下一个要绘制的笔画的嵌入表示,然后将该笔画锚定在画布上的合适位置,最后将笔画嵌入转换为一系列绘制动作。通过这种分层结构,用户可以在生成过程中的任何阶段对笔画嵌入进行修改,从而实现对草图的灵活操控。

技术框架:该方法的技术框架包含三个主要阶段:笔画预测、笔画锚定和笔画转换。1) 笔画预测阶段:模型根据已生成的笔画信息,预测下一个要绘制的笔画的嵌入表示。2) 笔画锚定阶段:模型将预测的笔画嵌入锚定在画布上的合适位置,确定笔画的起始点。3) 笔画转换阶段:模型将笔画嵌入转换为一系列绘制动作,例如笔的移动、压力等,从而完成笔画的绘制。这三个阶段以自回归的方式进行,即每个阶段的输出都会作为下一个阶段的输入,从而实现对草图的逐步生成。

关键创新:本文最重要的技术创新点在于提出了分层自回归的草图生成框架。与现有方法相比,该框架具有更高的灵活性和可控性,允许用户在生成过程中的任何阶段对笔画进行修改和调整。此外,通过自回归的方式,模型能够更好地利用已生成的笔画信息,从而生成更自然、更符合用户意图的草图。

关键设计:在笔画预测阶段,可以使用循环神经网络(RNN)或Transformer等序列模型来预测笔画嵌入。在笔画锚定阶段,可以使用回归模型来预测笔画的起始位置。在笔画转换阶段,可以使用生成对抗网络(GAN)或变分自编码器(VAE)等生成模型来生成笔画的绘制动作。损失函数可以包括笔画预测的交叉熵损失、笔画锚定的均方误差损失以及笔画转换的对抗损失或重构损失。

📊 实验亮点

论文重点在于提出了一种新的草图生成框架,并展示了其在笔画级别操控方面的优势。虽然摘要中没有明确提及具体的性能数据或对比基线,但强调了该方法在灵活性和可控性方面的提升。未来的工作可以进一步量化这些优势,并与其他方法进行更全面的比较。

🎯 应用场景

该研究成果可应用于草图设计、绘画创作、人机交互等领域。例如,设计师可以使用该方法快速生成草图,并根据需要对草图进行修改和调整。用户可以通过手势或语音等方式与系统进行交互,实时控制草图的生成过程。此外,该方法还可以用于教育领域,帮助学生学习绘画技巧和提高创作能力。

📄 摘要(原文)

Generating sketches with specific patterns as expected, i.e., manipulating sketches in a controllable way, is a popular task. Recent studies control sketch features at stroke-level by editing values of stroke embeddings as conditions. However, in order to provide generator a global view about what a sketch is going to be drawn, all these edited conditions should be collected and fed into generator simultaneously before generation starts, i.e., no further manipulation is allowed during sketch generating process. In order to realize sketch drawing manipulation more flexibly, we propose a hierarchical auto-regressive sketch generating process. Instead of generating an entire sketch at once, each stroke in a sketch is generated in a three-staged hierarchy: 1) predicting a stroke embedding to represent which stroke is going to be drawn, and 2) anchoring the predicted stroke on the canvas, and 3) translating the embedding to a sequence of drawing actions to form the full sketch. Moreover, the stroke prediction, anchoring and translation are proceeded auto-regressively, i.e., both the recently generated strokes and their positions are considered to predict the current one, guiding model to produce an appropriate stroke at a suitable position to benefit the full sketch generation. It is flexible to manipulate stroke-level sketch drawing at any time during generation by adjusting the exposed editable stroke embeddings.