Visible Yet Unreadable: A Systematic Blind Spot of Vision Language Models Across Writing Systems

📄 arXiv: 2509.06996v5 📥 PDF

作者: Jie Zhang, Ting Xu, Gelei Deng, Runyi Hu, Han Qiu, Tianwei Zhang, Qing Guo, Ivor Tsang

分类: cs.CV, cs.AI

发布日期: 2025-09-04 (更新: 2025-12-01)

备注: arXiv admin note: This article has been withdrawn by arXiv administrators due to violation of arXiv policy regarding generative AI authorship


💡 一句话要点

揭示视觉语言模型在跨书写系统中的盲点:对可见但不可读文本的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 鲁棒性 跨书写系统 组合先验 文本识别

📋 核心要点

  1. 现有视觉语言模型在处理被破坏或扰动的文本时表现出明显的脆弱性,无法像人类一样识别“可见但不可读”的文本。
  2. 论文通过构建新的基准数据集,包含中文和英文两种书写系统,并对字形进行拼接、重组和叠加等操作,来评估模型的鲁棒性。
  3. 实验结果表明,即使在干净文本上表现良好的VLMs,在面对这些扰动时性能也会显著下降,揭示了模型在组合先验方面的不足。

📝 摘要(中文)

书写是一种通用的文化技术,它重复利用视觉进行符号交流。人类表现出惊人的适应能力:即使字符被分割、融合或部分遮挡,我们也能轻松识别单词。本文研究了先进的视觉语言模型(VLMs)是否也具有这种适应能力。我们构建了两个受心理物理学启发的基准,分别针对中文象形文字和英文字母文字,通过拼接、重组和叠加字形,产生对模型来说“可见但不可读”的刺激,而这些刺激对人类来说仍然清晰可辨。尽管在干净的文本上表现出色,但当前的VLMs在这些扰动下表现出严重的下降,经常产生不相关或不连贯的输出。这种模式表明存在结构性限制:模型过度依赖通用的视觉不变性,而对鲁棒读写能力所需的组合先验依赖不足。我们发布了刺激生成代码、提示和评估协议,以促进透明的复制和后续工作。我们的发现激发了跨脚本编码符号分割、组合和绑定的架构和训练策略,并为在教育、可访问性、文化遗产和安全领域部署多模态系统提出了具体的挑战。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLMs)在处理“可见但不可读”文本时表现出的鲁棒性不足的问题。现有VLMs在干净文本上表现良好,但在面对字形被分割、融合或遮挡等扰动时,性能会显著下降。这表明现有模型缺乏像人类一样的对文本的容错能力,限制了其在实际应用中的可靠性。

核心思路:论文的核心思路是通过构建包含扰动文本的基准数据集,来系统性地评估VLMs的鲁棒性。通过分析模型在这些数据集上的表现,可以揭示模型在处理复杂视觉信息时的弱点,并为未来的模型设计提供指导。论文强调了模型需要更好地利用组合先验,即理解字符的组成部分及其组合方式,才能实现更强的鲁棒性。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建包含扰动文本的基准数据集,包括中文和英文两种书写系统。扰动方式包括字形拼接、重组和叠加等。2) 选择具有代表性的VLMs进行评估,例如CLIP等。3) 设计合适的评估指标,例如准确率、BLEU等,来衡量模型在扰动文本上的表现。4) 分析实验结果,揭示模型在不同扰动下的表现差异,并探讨其原因。

关键创新:论文的关键创新在于:1) 系统性地研究了VLMs在跨书写系统中的盲点,揭示了模型在处理扰动文本时的脆弱性。2) 构建了新的基准数据集,为评估VLMs的鲁棒性提供了标准化的平台。3) 强调了组合先验在提高VLMs鲁棒性中的重要性,为未来的模型设计提供了新的思路。

关键设计:论文的关键设计包括:1) 扰动方式的设计:字形拼接、重组和叠加等扰动方式模拟了现实世界中可能出现的文本干扰,例如手写字体、模糊图像等。2) 数据集规模的设计:数据集包含足够多的样本,以保证评估结果的可靠性。3) 评估指标的选择:准确率和BLEU等指标能够全面地衡量模型在扰动文本上的理解能力。

📊 实验亮点

实验结果表明,即使在干净文本上取得良好性能的VLMs,在面对扰动文本时性能也会显著下降。例如,在某些扰动下,模型的准确率下降幅度超过50%。这表明现有VLMs在处理复杂视觉信息时存在明显的局限性,需要进一步改进。

🎯 应用场景

该研究成果可应用于提升多模态系统在教育、可访问性、文化遗产和安全等领域的性能。例如,可以帮助开发更鲁棒的OCR系统,识别手写潦草的文字,或者在图像受损的情况下识别文本信息。此外,该研究还可以促进开发更智能的辅助技术,帮助视力障碍者理解文本内容。

📄 摘要(原文)

Writing is a universal cultural technology that reuses vision for symbolic communication. Humans display striking resilience: we readily recognize words even when characters are fragmented, fused, or partially occluded. This paper investigates whether advanced vision language models (VLMs) share this resilience. We construct two psychophysics inspired benchmarks across distinct writing systems, Chinese logographs and English alphabetic words, by splicing, recombining, and overlaying glyphs to yield ''visible but unreadable'' stimuli for models while remaining legible to humans. Despite strong performance on clean text, contemporary VLMs show a severe drop under these perturbations, frequently producing unrelated or incoherent outputs. The pattern suggests a structural limitation: models heavily leverage generic visual invariances but under rely on compositional priors needed for robust literacy. We release stimuli generation code, prompts, and evaluation protocols to facilitate transparent replication and follow up work. Our findings motivate architectures and training strategies that encode symbol segmentation, composition, and binding across scripts, and they delineate concrete challenges for deploying multimodal systems in education, accessibility, cultural heritage, and security.