GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting

📄 arXiv: 2510.06782v1 📥 PDF

作者: Kaichun Yang, Jian Chen

分类: cs.HC, cs.CL, cs.CV

发布日期: 2025-10-08


💡 一句话要点

GPT-5无需提示即可修正GPT-4V在图表阅读中的错误

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表阅读 多模态学习 大语言模型 GPT-5 GPT-4V 零样本学习 定量评估

📋 核心要点

  1. 现有方法在复杂图表理解方面存在不足,多模态大模型在处理视觉信息时仍有提升空间。
  2. 该研究对比了GPT-5和GPT-4V在图表阅读任务上的表现,着重关注模型架构本身对性能的影响。
  3. 实验结果表明,更先进的模型架构(GPT-5)在图表阅读准确性方面有显著提升,提示工程的影响相对较小。

📝 摘要(中文)

本文对零样本大语言模型(LLMs)及其提示在图表阅读任务中的影响进行了定量评估。我们要求LLMs回答107个可视化问题,以比较agentic GPT-5和多模态GPT-4V在困难图像实例上的推理准确性,在这些实例中GPT-4V未能产生正确的答案。结果表明,模型架构主导了推理准确性:GPT-5在很大程度上提高了准确性,而提示变体仅产生了很小的影响。该工作的预注册版本可在此处获得:https://osf.io/u78td/?view_only=6b075584311f48e991c39335c840ded3;Google Drive材料位于:https://drive.google.com/file/d/1ll8WWZDf7cCNcfNWrLViWt8GwDNSvVrp/view。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在图表阅读理解任务中的准确性问题。现有方法,如GPT-4V,在处理复杂或具有挑战性的图表时,容易出现理解偏差或错误,导致回答不准确。这些痛点限制了LLMs在数据分析和可视化领域的应用。

核心思路:论文的核心思路是对比不同模型架构(GPT-5 vs. GPT-4V)在图表阅读任务上的表现,以此来评估模型架构本身对性能的影响。通过控制提示变量,研究人员试图分离模型架构和提示工程对最终结果的贡献,从而更清晰地了解模型能力。

技术框架:研究采用定量评估方法,构建了一个包含107个可视化问题的图表阅读数据集。研究流程包括:1) 使用GPT-4V和GPT-5回答数据集中的问题;2) 比较两种模型在回答准确性上的差异;3) 分析不同提示策略对模型性能的影响。重点关注GPT-4V无法正确回答的困难图像实例。

关键创新:该研究的关键创新在于直接对比了GPT-5和GPT-4V在图表阅读任务上的零样本性能,并量化了模型架构对准确性的影响。与以往侧重于提示工程的研究不同,该研究强调了模型架构本身的重要性,为未来模型设计提供了新的视角。

关键设计:研究中使用了107个可视化问题,这些问题涵盖了不同类型的图表和不同的信息提取需求。研究人员没有详细说明具体的参数设置或网络结构,因为重点在于对比现有模型的性能。提示变体的使用是为了评估提示工程的影响,但具体提示内容未知。

📊 实验亮点

实验结果表明,GPT-5在图表阅读任务上的准确性显著优于GPT-4V,尤其是在GPT-4V无法正确回答的困难图像实例上。该研究强调了模型架构对性能的决定性影响,提示工程的作用相对较小。具体的性能提升幅度未知,但结论明确指出GPT-5的优势。

🎯 应用场景

该研究成果可应用于智能数据分析、自动化报告生成、辅助决策支持等领域。通过提升大语言模型对图表的理解能力,可以更有效地从可视化数据中提取信息,为用户提供更准确、更便捷的数据分析服务。未来,该研究可以推动多模态大模型在商业智能、科学研究等领域的广泛应用。

📄 摘要(原文)

We present a quantitative evaluation to understand the effect of zero-shot large-language model (LLMs) and prompting uses on chart reading tasks. We asked LLMs to answer 107 visualization questions to compare inference accuracies between the agentic GPT-5 and multimodal GPT-4V, for difficult image instances, where GPT-4V failed to produce correct answers. Our results show that model architecture dominates the inference accuracy: GPT5 largely improved accuracy, while prompt variants yielded only small effects. Pre-registration of this work is available here: https://osf.io/u78td/?view_only=6b075584311f48e991c39335c840ded3; the Google Drive materials are here:https://drive.google.com/file/d/1ll8WWZDf7cCNcfNWrLViWt8GwDNSvVrp/view.