IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation
作者: Yinghao Tang, Xueding Liu, Boyuan Zhang, Tingfeng Lan, Yupeng Xie, Jiale Lao, Yiyao Wang, Haoxuan Li, Tingting Gao, Bo Pan, Luoxuan Weng, Xiuqi Huang, Minfeng Zhu, Yingchaojie Feng, Yuyu Luo, Wei Chen
分类: cs.LG, cs.CV
发布日期: 2026-01-08
💡 一句话要点
提出IGenBench以评估文本到信息图生成的可靠性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 信息图生成 文本到图像 可靠性评估 多模态模型 自动化评估 基准测试 数据可视化
📋 核心要点
- 现有的文本到信息图生成模型在生成的可靠性上存在明显不足,常常导致数据和文本内容的错误。
- 本文提出IGENBENCH基准,通过600个测试案例和自动化评估框架,系统性地评估文本到信息图生成的可靠性。
- 实验结果显示,最佳模型的Q-ACC为0.90,但I-ACC仅为0.49,揭示了数据相关维度的普遍瓶颈。
📝 摘要(中文)
信息图是结合数据可视化与文本、插图元素的复合视觉作品,用于传达信息。尽管近期的文本到图像(T2I)模型能够生成美观的图像,但其在生成信息图时的可靠性仍不明确。生成的信息图可能在表面上看似正确,但可能存在数据编码扭曲或文本内容错误等问题。本文提出IGENBENCH,这是第一个用于评估文本到信息图生成可靠性的基准,包含600个精心策划的测试案例,涵盖30种信息图类型。我们设计了一个自动化评估框架,将可靠性验证分解为基于10种问题类型的原子是/否问题,并利用多模态大语言模型(MLLMs)来验证每个问题,得出问题级准确率(Q-ACC)和信息图级准确率(I-ACC)。
🔬 方法详解
问题定义:本文旨在解决文本到信息图生成过程中可靠性不足的问题,现有方法常常忽视生成内容的准确性,导致信息传达失真。
核心思路:通过建立IGENBENCH基准,系统评估生成的信息图的可靠性,采用自动化框架将验证过程分解为简单的是/否问题,以提高评估的准确性和效率。
技术框架:整体架构包括数据准备、问题生成、模型验证和结果分析四个主要模块。首先,收集和策划测试案例;然后,依据10种问题类型生成验证问题;接着,利用MLLMs进行问题验证;最后,分析模型的表现。
关键创新:IGENBENCH是首个专注于文本到信息图生成可靠性的基准,提供了系统化的评估方法,填补了现有研究的空白。
关键设计:在评估过程中,采用了多模态大语言模型进行问题验证,设置了明确的准确率指标(Q-ACC和I-ACC),并设计了10种问题类型以全面覆盖信息图的各个方面。
📊 实验亮点
实验结果表明,最佳模型在问题级准确率(Q-ACC)上达到0.90,但在信息图级准确率(I-ACC)上仅为0.49,显示出数据完整性等方面的显著瓶颈。整体分析揭示了模型在实现端到端正确性方面的挑战。
🎯 应用场景
该研究的潜在应用领域包括教育、商业报告、数据新闻等,能够帮助用户生成更为可靠的信息图,从而提高信息传达的准确性和有效性。未来,IGENBENCH可作为进一步研究和模型改进的基础,推动文本到信息图生成技术的发展。
📄 摘要(原文)
Infographics are composite visual artifacts that combine data visualizations with textual and illustrative elements to communicate information. While recent text-to-image (T2I) models can generate aesthetically appealing images, their reliability in generating infographics remains unclear. Generated infographics may appear correct at first glance but contain easily overlooked issues, such as distorted data encoding or incorrect textual content. We present IGENBENCH, the first benchmark for evaluating the reliability of text-to-infographic generation, comprising 600 curated test cases spanning 30 infographic types. We design an automated evaluation framework that decomposes reliability verification into atomic yes/no questions based on a taxonomy of 10 question types. We employ multimodal large language models (MLLMs) to verify each question, yielding question-level accuracy (Q-ACC) and infographic-level accuracy (I-ACC). We comprehensively evaluate 10 state-of-the-art T2I models on IGENBENCH. Our systematic analysis reveals key insights for future model development: (i) a three-tier performance hierarchy with the top model achieving Q-ACC of 0.90 but I-ACC of only 0.49; (ii) data-related dimensions emerging as universal bottlenecks (e.g., Data Completeness: 0.21); and (iii) the challenge of achieving end-to-end correctness across all models. We release IGENBENCH at https://igen-bench.vercel.app/.