True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies

📄 arXiv: 2604.01181v1 📥 PDF

作者: Graziano Blasilli, Marco Angelini

分类: cs.HC, cs.CL, cs.CV

发布日期: 2026-04-01


💡 一句话要点

分析生成式AI识别可视化谎言中意图、修辞和误导性的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可视化谎言 大型语言模型 多模态学习 可视化修辞 作者意图 信息误导 COVID-19 用户研究

📋 核心要点

  1. 现有方法难以有效识别和解释可视化中的误导性信息,尤其是在理解作者意图和修辞手法方面。
  2. 论文利用可视化修辞和作者意图分类法,研究多模态LLM识别和解释误导性可视化的能力,并与人类专家进行对比。
  3. 实验评估了16个先进LLM在COVID-19相关推文数据集上的表现,并分析了模型与人类专家在识别误导性可视化方面的异同。

📝 摘要(中文)

本研究旨在调查多模态大型语言模型(LLMs)识别和解释误导性可视化的能力,并识别这些观察结果及其根本原因和潜在意图。我们的分析利用了可视化修辞的概念和一个新开发的作者意图分类法作为解释的视角。我们提出了三个研究问题,并使用一个包含2336条与COVID-19相关的推文的数据集进行了实验,其中一半包含误导性可视化,并补充了来自VisLies的真实世界的感知、认知和概念错误示例,VisLies是IEEE VIS社区的活动,专门展示欺骗性和误导性可视化。为了确保对当前LLM领域的广泛覆盖,我们评估了16个最先进的模型。其中,15个是开放权重模型,涵盖了广泛的模型大小、架构系列和推理能力。此外,我们还使用了OpenAI GPT-5.4,这是一个前沿的专有模型。为了建立对这些任务的人类视角,我们还与可视化专家进行了一项用户研究,以评估人们如何看待修辞技巧以及相同误导性可视化背后的作者意图。这使得模型和专家行为之间的比较成为可能,揭示了LLM与人类判断一致和不同的地方,从而提供了深刻的见解。

🔬 方法详解

问题定义:论文旨在解决如何让大型语言模型(LLMs)理解和识别可视化中的谎言,特别是那些通过修辞手法和作者有意为之的误导性信息。现有方法缺乏对可视化意图和修辞的深入理解,导致识别准确率不高。

核心思路:论文的核心思路是将可视化谎言的识别问题分解为三个层次:识别误导性可视化、理解其根本原因以及推断作者的潜在意图。通过引入可视化修辞和作者意图分类法,为LLMs提供更丰富的上下文信息,从而提高识别的准确性和可靠性。

技术框架:整体框架包括数据收集与标注、模型选择与评估、以及用户研究三个主要部分。首先,构建包含真实世界误导性可视化案例的数据集。然后,选择16个先进的LLMs进行评估,包括不同大小和架构的模型。最后,通过用户研究收集人类专家对相同可视化案例的判断,用于与模型结果进行对比分析。

关键创新:论文的关键创新在于将可视化修辞和作者意图分类法引入到LLM的训练和评估中。这使得模型能够更好地理解可视化背后的语义和意图,从而更准确地识别误导性信息。此外,通过对比模型和人类专家的判断,揭示了LLM在理解可视化谎言方面的优势和不足。

关键设计:论文使用了包含2336条COVID-19相关推文的数据集,其中一半包含误导性可视化。评估指标包括准确率、召回率和F1值。用户研究采用问卷调查的方式,收集专家对可视化案例的判断和解释。模型选择涵盖了不同大小和架构的LLMs,以确保评估的全面性和代表性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,部分LLM在识别误导性可视化方面表现出一定的能力,但与人类专家相比仍存在差距。大型模型在理解复杂修辞手法和作者意图方面表现更佳。用户研究揭示了模型与人类在判断标准上的差异,为改进LLM的可视化理解能力提供了重要启示。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、新闻真实性检测、以及教育领域,帮助用户识别和抵御虚假信息。未来,可进一步扩展到其他类型的可视化数据,并开发更智能的自动化工具,提升信息素养和网络安全。

📄 摘要(原文)

This study investigates the ability of multimodal Large Language Models (LLMs) to identify and interpret misleading visualizations, and recognize these observations along with their underlying causes and potential intentionality. Our analysis leverages concepts from visualization rhetoric and a newly developed taxonomy of authorial intents as explanatory lenses. We formulated three research questions and addressed them experimentally using a dataset of 2,336 COVID-19-related tweets, half of which contain misleading visualizations, and supplemented it with real-world examples of perceptual, cognitive, and conceptual errors drawn from VisLies, the IEEE VIS community event dedicated to showcasing deceptive and misleading visualizations. To ensure broad coverage of the current LLM landscape, we evaluated 16 state-of-the-art models. Among them, 15 are open-weight models, spanning a wide range of model sizes, architectural families, and reasoning capabilities. The selection comprises small models, namely Nemotron-Nano-V2-VL (12B parameters), Mistral-Small-3.2 (24B), DeepSeek-VL2 (27B), Gemma3 (27B), and GTA1 (32B); medium-sized models, namely Qianfan-VL (70B), Molmo (72B), GLM-4.5V (108B), LLaVA-NeXT (110B), and Pixtral-Large (124B); and large models, namely Qwen3-VL (235B), InternVL3.5 (241B), Step3 (321B), Llama-4-Maverick (400B), and Kimi-K2.5 (1000B). In addition, we employed OpenAI GPT-5.4, a frontier proprietary model. To establish a human perspective on these tasks, we also conducted a user study with visualization experts to assess how people perceive rhetorical techniques and the authorial intentions behind the same misleading visualizations. This allows comparison between model and expert behavior, revealing similarities and differences that provide insights into where LLMs align with human judgment and where they diverge.