GenAI-DrawIO-Creator: A Framework for Automated Diagram Generation

📄 arXiv: 2601.05162v1 📥 PDF

作者: Jinze Yu, Dayuan Jiang

分类: cs.GR, cs.CV

发布日期: 2026-01-08


💡 一句话要点

GenAI-DrawIO-Creator:利用LLM自动生成draw.io图表的框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表生成 大型语言模型 自动化 结构化数据 draw.io XML 视觉推理

📋 核心要点

  1. 创建和修改图表是沟通复杂信息的关键,但现有方法耗时费力,效率低下。
  2. GenAI-DrawIO-Creator利用LLM Claude 3.7,通过结构化XML格式实现图表的自动生成和实时更新。
  3. 实验表明,该方法能显著减少图表创建时间,并生成结构保真度高的图表,例如网络架构和流程图。

📝 摘要(中文)

本文提出GenAI-DrawIO-Creator,一个利用大型语言模型(LLMs)自动生成和操作draw.io使用的结构化XML格式图表的框架。该系统集成Claude 3.7,使其能够推理结构化视觉数据并生成有效的图表表示。主要贡献包括:支持实时图表更新的高级系统设计、专门的提示工程和错误检查以确保格式良好的XML输出。原型系统能够从自然语言或代码生成准确的图表(如网络架构和流程图),甚至可以复制图像中的图表。模拟评估表明,该方法显著减少了图表创建时间,并产生了具有高结构保真度的输出。研究结果突显了Claude 3.7在处理结构化视觉推理任务方面的潜力,并为AI辅助图表绘制应用的未来研究奠定了基础。

🔬 方法详解

问题定义:论文旨在解决手动创建和修改图表耗时费力的问题。现有方法缺乏自动化,需要人工干预,效率低下,难以快速迭代和更新图表。特别是对于复杂的图表,手动创建和维护的成本很高。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大推理和生成能力,将自然语言或代码等输入转化为结构化的图表表示。通过Claude 3.7理解图表的结构和语义,并生成符合draw.io XML格式的图表描述,从而实现图表的自动生成和编辑。

技术框架:GenAI-DrawIO-Creator框架包含以下主要模块:1) 输入解析模块,负责接收自然语言、代码或图像等输入,并将其转化为LLM可以理解的格式。2) LLM推理模块,使用Claude 3.7对输入进行推理,生成图表的结构化描述。3) XML生成模块,将LLM生成的结构化描述转化为符合draw.io XML格式的图表表示。4) 图表渲染模块,将XML表示渲染成可视化的图表。此外,框架还包含错误检查模块,用于验证XML输出的有效性。

关键创新:该论文的关键创新在于将LLM应用于图表自动生成和编辑领域,并提出了一套完整的框架来实现这一目标。与现有方法相比,该方法无需人工干预,能够自动生成和更新图表,显著提高了效率。此外,该方法还能够从多种输入源(如自然语言、代码和图像)生成图表,具有很强的灵活性。

关键设计:论文中关键的设计包括:1) 针对图表生成任务的提示工程,通过精心设计的提示,引导LLM生成准确和有效的图表描述。2) XML格式验证机制,确保生成的XML文件符合draw.io的要求,避免出现错误。3) 实时更新机制,允许用户对生成的图表进行实时编辑和修改,并自动更新XML表示。

📊 实验亮点

论文通过模拟评估验证了GenAI-DrawIO-Creator的有效性。实验结果表明,该方法能够显著减少图表创建时间,并生成具有高结构保真度的图表。例如,从自然语言描述生成网络架构图的平均时间缩短了XX%,生成的图表结构与人工绘制的图表结构相似度达到XX%。此外,该方法还能够成功复制图像中的图表,证明了其在视觉推理方面的能力。

🎯 应用场景

该研究成果可广泛应用于软件工程、网络工程、数据科学等领域,帮助工程师和研究人员快速创建和修改各种图表,例如流程图、网络架构图、UML图等。通过自动化图表生成,可以显著提高工作效率,降低沟通成本,并促进知识共享。未来,该技术有望集成到各种绘图工具和协作平台中,实现更智能化的图表绘制体验。

📄 摘要(原文)

Diagrams are crucial for communicating complex information, yet creating and modifying them remains a labor-intensive task. We present GenAI-DrawIO-Creator, a novel framework that leverages Large Language Models (LLMs) to automate diagram generation and manipulation in the structured XML format used by draw.io. Our system integrates Claude 3.7 to reason about structured visual data and produce valid diagram representations. Key contributions include a high-level system design enabling real-time diagram updates, specialized prompt engineering and error-checking to ensure well-formed XML outputs. We demonstrate a working prototype capable of generating accurate diagrams (such as network architectures and flowcharts) from natural language or code, and even replicating diagrams from images. Simulated evaluations show that our approach significantly reduces diagram creation time and produces outputs with high structural fidelity. Our results highlight the promise of Claude 3.7 in handling structured visual reasoning tasks and lay the groundwork for future research in AI-assisted diagramming applications.