TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning
作者: Christian Greisinger, Steffen Eger
分类: cs.AI, cs.CL, cs.CV
发布日期: 2026-03-03
💡 一句话要点
TikZilla:通过高质量数据和强化学习扩展文本到TikZ的生成能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到TikZ 科学绘图 强化学习 逆图形 大型语言模型 数据增强 Qwen模型
📋 核心要点
- 现有Text-to-TikZ数据集规模小、质量低,难以捕捉TikZ的复杂性,导致生成图像与文本描述不符。
- TikZilla通过构建更大更高质量的DaTikZ-V4数据集,并结合监督微调和强化学习的两阶段训练方法来解决上述问题。
- 实验表明,TikZilla在人工评估中显著优于其基础模型,甚至超越了GPT-4o,并在图像评估中与GPT-5相当,同时保持较小的模型规模。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用于辅助科学家完成各种工作流程。一个关键挑战是从文本描述中生成高质量的图形,这些图形通常表示为可以渲染成科学图像的TikZ程序。先前的研究已经提出了各种数据集和建模方法来解决这个问题。然而,现有的Text-to-TikZ数据集太小且噪声太大,无法捕捉TikZ的复杂性,导致文本和渲染图形之间不匹配。此外,先前的方法仅依赖于监督微调(SFT),这不会使模型暴露于图形的渲染语义,经常导致循环、不相关内容和不正确的空间关系等错误。为了解决这些问题,我们构建了DaTikZ-V4,一个比DaTikZ-V3大四倍以上且质量更高的数据集,并使用LLM生成的图形描述进行了丰富。使用这个数据集,我们训练了TikZilla,一个小型开源Qwen模型(3B和8B)系列,采用SFT和强化学习(RL)的两阶段流程。对于RL,我们利用通过逆图形训练的图像编码器来提供语义上忠实的奖励信号。超过1,000次判断的广泛人工评估表明,TikZilla在其基础模型的基础上提高了1.5-2分(5分制),超过GPT-4o 0.5分,并在基于图像的评估中与GPT-5相匹配,同时模型尺寸小得多。代码、数据和模型将可用。
🔬 方法详解
问题定义:论文旨在解决从文本描述生成高质量TikZ代码的问题,现有方法受限于数据集规模和质量,以及训练方式的不足,导致生成的图像存在语义错误,例如循环、无关内容和空间关系错误。
核心思路:论文的核心思路是构建更大、更高质量的数据集,并采用两阶段训练方法:首先进行监督微调(SFT),然后进行强化学习(RL)。通过RL,模型可以学习到图像的渲染语义,从而生成更准确的TikZ代码。
技术框架:TikZilla的训练流程包含两个主要阶段:1) 监督微调(SFT):使用DaTikZ-V4数据集对Qwen模型进行微调,使其初步具备文本到TikZ代码的生成能力。2) 强化学习(RL):使用图像编码器提取渲染图像的语义信息,作为奖励信号来训练模型,使其能够生成更符合文本描述的图像。
关键创新:论文的关键创新在于:1) 构建了更大更高质量的DaTikZ-V4数据集。2) 提出了基于逆图形的图像编码器,用于提供语义忠实的强化学习奖励信号。3) 结合SFT和RL的两阶段训练方法,有效提升了模型的生成质量。
关键设计:DaTikZ-V4数据集通过LLM生成图形描述进行数据增强,提升了数据集的覆盖度和质量。图像编码器通过逆图形技术进行训练,能够准确提取渲染图像的语义信息。强化学习阶段,奖励函数的设计至关重要,论文采用基于图像编码器的语义相似度作为奖励,引导模型生成更符合文本描述的图像。
📊 实验亮点
TikZilla在人工评估中,相较于其基础模型,性能提升了1.5-2分(5分制)。更重要的是,TikZilla超越了GPT-4o 0.5分,并在基于图像的评估中与GPT-5的性能相匹配,而TikZilla的模型规模远小于GPT-4o和GPT-5。这些结果表明,通过高质量数据和强化学习,小模型也能达到甚至超越大模型的性能。
🎯 应用场景
该研究成果可应用于科学绘图、教育、自动化报告生成等领域。通过提供高质量的文本到TikZ代码生成能力,可以帮助科研人员更高效地创建科学图像,降低绘图门槛,并促进科学知识的传播和交流。未来,该技术有望集成到各种科学工具和平台中,进一步提升科研效率。
📄 摘要(原文)
Large language models (LLMs) are increasingly used to assist scientists across diverse workflows. A key challenge is generating high-quality figures from textual descriptions, often represented as TikZ programs that can be rendered as scientific images. Prior research has proposed a variety of datasets and modeling approaches for this task. However, existing datasets for Text-to-TikZ are too small and noisy to capture the complexity of TikZ, causing mismatches between text and rendered figures. Moreover, prior approaches rely solely on supervised fine-tuning (SFT), which does not expose the model to the rendered semantics of the figure, often resulting in errors such as looping, irrelevant content, and incorrect spatial relations. To address these issues, we construct DaTikZ-V4, a dataset more than four times larger and substantially higher in quality than DaTikZ-V3, enriched with LLM-generated figure descriptions. Using this dataset, we train TikZilla, a family of small open-source Qwen models (3B and 8B) with a two-stage pipeline of SFT followed by reinforcement learning (RL). For RL, we leverage an image encoder trained via inverse graphics to provide semantically faithful reward signals. Extensive human evaluations with over 1,000 judgments show that TikZilla improves by 1.5-2 points over its base models on a 5-point scale, surpasses GPT-4o by 0.5 points, and matches GPT-5 in the image-based evaluation, while operating at much smaller model sizes. Code, data, and models will be made available.