FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography
作者: Xia Xin, Yuki Endo, Yoshihiro Kanamori
分类: cs.CV, cs.GR
发布日期: 2026-03-06
🔗 代码/项目: GITHUB
💡 一句话要点
FontUse提出了一种数据驱动的方法,用于生成风格和用例可控的图像内排版。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像生成 文本到图像 排版控制 字体风格 数据驱动 多模态学习 大型语言模型
📋 核心要点
- 现有文本到图像模型在排版控制方面存在不足,难以准确呈现用户指定的字体风格和应用场景。
- FontUse通过构建大规模排版数据集,并结合字体风格和用例提示,实现对图像生成模型的针对性训练。
- 实验结果表明,使用FontUse训练的模型在文本渲染方面与用户提示的一致性优于现有方法。
📝 摘要(中文)
现有的文本到图像模型能够从自然语言提示生成高质量图像,但控制排版仍然具有挑战性:请求的排版外观经常被忽略或仅被弱化地遵循。我们通过一种数据驱动的方法来解决这一限制,该方法使用专门针对排版的结构化标注流程所衍生的有针对性的监督来训练图像生成模型。我们的流程构建了一个大规模的以排版为中心的数据集FontUse,包含约7万张图像,并标注了用户友好的提示、文本区域位置和OCR识别的字符串。这些标注是使用分割模型和多模态大型语言模型(MLLM)自动生成的。提示明确地结合了字体样式(例如,衬线、手写、优雅)和用例(例如,婚礼请柬、咖啡店菜单),即使对于新手用户也能实现直观的指定。使用这些标注对现有生成器进行微调,使其能够始终如一地将样式和用例条件解释为文本提示,而无需修改架构。为了评估,我们引入了一种基于Long-CLIP的指标,用于衡量生成的排版与请求的属性之间的一致性。跨各种提示和布局的实验表明,使用我们的流程训练的模型比竞争基线产生与提示更一致的文本渲染。
🔬 方法详解
问题定义:现有文本到图像模型在生成图像时,对于用户指定的字体风格和应用场景的排版控制能力较弱,无法准确地将这些信息融入到生成的图像中。这限制了用户对生成图像的精细化控制,尤其是在需要特定排版风格的场景下。
核心思路:FontUse的核心思路是通过构建一个大规模、高质量的排版数据集,并利用该数据集对现有的图像生成模型进行微调,从而提升模型对字体风格和应用场景的理解和生成能力。通过显式地将字体风格和用例信息作为提示输入模型,引导模型生成符合用户期望的排版效果。
技术框架:FontUse的技术框架主要包含两个部分:一是数据标注流程,用于构建大规模的排版数据集;二是模型微调流程,用于利用该数据集提升现有图像生成模型的排版控制能力。数据标注流程利用分割模型和多模态大型语言模型(MLLM)自动生成图像的标注信息,包括用户友好的提示、文本区域位置和OCR识别的字符串。模型微调流程则使用这些标注信息对现有的图像生成模型进行微调,使其能够更好地理解和生成符合用户期望的排版效果。
关键创新:FontUse的关键创新在于其数据驱动的方法和自动化的数据标注流程。通过构建大规模的排版数据集,为模型提供了丰富的训练数据,从而提升了模型的排版控制能力。自动化的数据标注流程则降低了数据标注的成本,使得构建大规模数据集成为可能。此外,FontUse还提出了一种基于Long-CLIP的指标,用于衡量生成的排版与请求的属性之间的一致性。
关键设计:FontUse的关键设计包括:1) 使用分割模型和多模态大型语言模型(MLLM)自动生成图像的标注信息,包括用户友好的提示、文本区域位置和OCR识别的字符串。2) 提示明确地结合了字体样式(例如,衬线、手写、优雅)和用例(例如,婚礼请柬、咖啡店菜单)。3) 使用Long-CLIP-based metric来评估生成排版与请求属性的一致性。数据集包含约7万张图像。
🖼️ 关键图片
📊 实验亮点
FontUse通过构建大规模排版数据集并微调现有生成模型,显著提升了文本渲染与用户提示的一致性。实验结果表明,使用FontUse训练的模型在各种提示和布局下,生成的文本排版效果明显优于现有基线模型。该方法无需修改模型架构,即可实现对字体风格和用例的有效控制。
🎯 应用场景
FontUse的研究成果可以广泛应用于图像生成、广告设计、品牌推广等领域。通过FontUse,用户可以更加方便地生成具有特定排版风格和应用场景的图像,从而提升设计效率和创意表达。未来,FontUse还可以应用于个性化字体推荐、智能排版辅助等领域,为用户提供更加智能化的排版服务。
📄 摘要(原文)
Recent text-to-image models can generate high-quality images from natural-language prompts, yet controlling typography remains challenging: requested typographic appearance is often ignored or only weakly followed. We address this limitation with a data-centric approach that trains image generation models using targeted supervision derived from a structured annotation pipeline specialized for typography. Our pipeline constructs a large-scale typography-focused dataset, FontUse, consisting of about 70K images annotated with user-friendly prompts, text-region locations, and OCR-recognized strings. The annotations are automatically produced using segmentation models and multimodal large language models (MLLMs). The prompts explicitly combine font styles (e.g., serif, script, elegant) and use cases (e.g., wedding invitations, coffee-shop menus), enabling intuitive specification even for novice users. Fine-tuning existing generators with these annotations allows them to consistently interpret style and use-case conditions as textual prompts without architectural modification. For evaluation, we introduce a Long-CLIP-based metric that measures alignment between generated typography and requested attributes. Experiments across diverse prompts and layouts show that models trained with our pipeline produce text renderings more consistent with prompts than competitive baselines. The source code for our annotation pipeline is available at https://github.com/xiaxinz/FontUSE.