Improving User Interface Generation Models from Designer Feedback

📄 arXiv: 2509.16779v1 📥 PDF

作者: Jason Wu, Amanda Swearngin, Arun Krishna Vajjala, Alan Leung, Jeffrey Nichols, Titus Barik

分类: cs.HC, cs.LG

发布日期: 2025-09-20


💡 一句话要点

提出设计师反馈驱动的UI生成模型,显著提升用户界面设计质量

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 用户界面生成 设计师反馈 人机协作 大型语言模型 强化学习 UI设计 模型微调

📋 核心要点

  1. 现有UI生成模型难以生成高质量设计,缺乏与设计师工作流的有效对齐。
  2. 利用评论、草图和直接操作等方式,收集设计师对UI生成的反馈。
  3. 通过设计师反馈微调LLM,显著提升UI生成质量,超越传统方法和GPT-5。

📝 摘要(中文)

尽管大型语言模型(LLMs)在海量数据上训练,但它们无法可靠地生成设计良好的用户界面(UI)。设计师的反馈对于提高UI生成性能至关重要。然而,我们发现现有的基于评分或排名的强化学习方法(RLHF)与设计师的工作流程不符,并且忽略了用于评论和改进UI设计的丰富理由。在本文中,我们研究了几种设计师向UI生成模型提供反馈的方法,使用了诸如评论、草图和直接操作等熟悉的交互方式。我们首先对21位设计师进行了一项研究,他们使用这些交互方式提供了反馈,产生了约1500个设计注释。然后,我们使用这些数据来微调一系列LLM,以生成更高质量的UI。最后,我们用人工评估员评估这些模型,发现我们与设计师对齐的方法优于使用传统排名反馈训练的模型和所有测试的基线,包括GPT-5。

🔬 方法详解

问题定义:现有的大型语言模型在生成用户界面时,虽然经过大量数据训练,但仍然难以生成符合设计原则和用户体验的高质量UI。现有的强化学习方法,如基于评分或排名的RLHF,与设计师实际的工作流程不匹配,无法充分利用设计师提供的详细设计理由和改进建议。这些方法忽略了设计师在设计过程中的专业知识和经验,导致模型难以学习到高质量的UI设计。

核心思路:本文的核心思路是让设计师以更自然、更符合其工作习惯的方式(例如评论、草图、直接操作)向UI生成模型提供反馈,并将这些反馈信息融入到模型的训练过程中。通过这种方式,模型可以更好地理解设计师的设计意图和设计原则,从而生成更高质量的UI设计。这种方法强调了设计师在UI生成过程中的主导作用,将设计师的专业知识有效地传递给模型。

技术框架:该研究的技术框架主要包含三个阶段:1) 数据收集阶段:通过实验收集设计师使用评论、草图和直接操作等方式对UI生成结果的反馈数据,构建一个包含丰富设计注释的数据集。2) 模型微调阶段:利用收集到的设计师反馈数据,对大型语言模型进行微调,使其能够更好地理解和生成高质量的UI设计。3) 模型评估阶段:通过人工评估员对微调后的模型生成的UI设计进行评估,并与基线模型进行比较,验证该方法的有效性。

关键创新:该研究的关键创新在于提出了一个与设计师工作流程对齐的UI生成模型训练方法。与传统的基于评分或排名的RLHF方法不同,该方法允许设计师以更自然、更丰富的方式提供反馈,例如评论、草图和直接操作。这种方法能够更有效地利用设计师的专业知识和经验,从而显著提高UI生成模型的性能。此外,该研究还构建了一个包含大量设计师反馈注释的数据集,为UI生成模型的研究提供了宝贵的数据资源。

关键设计:在数据收集阶段,研究人员设计了专门的交互界面,允许设计师使用评论、草图和直接操作等方式对UI生成结果进行标注和修改。在模型微调阶段,研究人员使用了标准的大型语言模型微调技术,并根据设计师反馈数据的特点,设计了合适的损失函数,以更好地利用这些反馈信息。具体的损失函数和网络结构细节在论文中可能有所描述,但此处未给出详细信息。

📊 实验亮点

实验结果表明,使用设计师反馈微调的LLM在UI生成质量上显著优于传统排名反馈训练的模型以及包括GPT-5在内的所有基线模型。通过人工评估,验证了该方法在提升UI设计质量方面的有效性。具体性能提升幅度未知,但优于GPT-5表明了显著的进步。

🎯 应用场景

该研究成果可应用于各种UI设计场景,例如移动应用、网页设计、软件界面等。通过与设计师的交互,AI模型能够生成更符合用户需求和设计规范的UI,提高设计效率和用户体验。未来,该技术有望实现UI设计的自动化和智能化,降低设计成本,并为设计师提供更强大的辅助工具。

📄 摘要(原文)

Despite being trained on vast amounts of data, most LLMs are unable to reliably generate well-designed UIs. Designer feedback is essential to improving performance on UI generation; however, we find that existing RLHF methods based on ratings or rankings are not well-aligned with designers' workflows and ignore the rich rationale used to critique and improve UI designs. In this paper, we investigate several approaches for designers to give feedback to UI generation models, using familiar interactions such as commenting, sketching and direct manipulation. We first perform a study with 21 designers where they gave feedback using these interactions, which resulted in ~1500 design annotations. We then use this data to finetune a series of LLMs to generate higher quality UIs. Finally, we evaluate these models with human judges, and we find that our designer-aligned approaches outperform models trained with traditional ranking feedback and all tested baselines, including GPT-5.