MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks

📄 arXiv: 2506.05982v6 📥 PDF

作者: Zonglin Wu, Yule Xue, Yaoyao Feng, Xiaolong Wang, Yiren Song

分类: cs.CV

发布日期: 2025-06-06 (更新: 2025-11-17)

备注: we update the paper supplement


💡 一句话要点

提出MCA-Bench以评估CAPTCHA对VLM攻击的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAPTCHA 多模态基准 安全性评估 视觉-语言模型 自动化攻击

📋 核心要点

  1. 现有CAPTCHA方案缺乏统一的多模态基准,难以全面评估其安全性和鲁棒性。
  2. 本文提出MCA-Bench,通过整合多种CAPTCHA类型,利用共享的视觉-语言模型进行一致的评估。
  3. 实验结果显示,MCA-Bench能够有效揭示CAPTCHA设计的脆弱性,并提供了挑战复杂性与模型可解性之间的定量关系分析。

📝 摘要(中文)

随着自动化攻击技术的快速发展,CAPTCHA仍然是抵御恶意机器人的关键防御机制。然而,现有的CAPTCHA方案涵盖了多种模态,但缺乏统一的大规模多模态基准来严格评估其安全性。为此,本文提出了MCA-Bench,一个综合且可重复的基准测试套件,将异构CAPTCHA类型整合到单一评估协议中。通过共享的视觉-语言模型骨干,针对每种CAPTCHA类别微调专门的破解代理,实现了一致的跨模态评估。实验结果表明,MCA-Bench有效映射了现代CAPTCHA设计在不同攻击设置下的脆弱性,并首次定量分析了挑战复杂性、交互深度和模型可解性之间的关系。基于这些发现,提出了三条可行的设计原则,并识别了关键的开放挑战,为系统化的CAPTCHA强化、公平基准测试和更广泛的社区合作奠定了基础。

🔬 方法详解

问题定义:本文旨在解决现有CAPTCHA评估缺乏统一标准的问题,现有方法无法全面评估不同模态CAPTCHA的安全性和鲁棒性。

核心思路:提出MCA-Bench,通过整合多种CAPTCHA类型,利用共享的视觉-语言模型骨干,微调针对不同CAPTCHA的破解代理,以实现一致的跨模态评估。

技术框架:MCA-Bench的整体架构包括数据集构建、模型训练和评估三个主要模块。首先,收集和整合多种CAPTCHA类型的数据;其次,基于视觉-语言模型进行微调,最后进行一致性评估。

关键创新:MCA-Bench的主要创新在于其跨模态评估能力,首次提供了CAPTCHA设计脆弱性的量化分析,与现有方法相比,能够更全面地揭示不同CAPTCHA的安全性。

关键设计:在模型训练中,采用了特定的损失函数以优化破解效果,并针对不同CAPTCHA类型设计了相应的网络结构,以提高评估的准确性和一致性。

📊 实验亮点

实验结果表明,MCA-Bench能够有效映射现代CAPTCHA设计的脆弱性,首次提供了挑战复杂性与模型可解性之间的定量关系分析。具体而言,某些CAPTCHA在特定攻击设置下的破解率提升了20%以上,显示出该基准的有效性和实用性。

🎯 应用场景

MCA-Bench的研究成果可广泛应用于网络安全领域,尤其是在提升CAPTCHA设计的安全性和鲁棒性方面。通过系统化的评估和优化,能够有效抵御自动化攻击,保护用户信息安全。此外,该研究为CAPTCHA的未来设计提供了重要的理论基础和实践指导。

📄 摘要(原文)

As automated attack techniques rapidly advance, CAPTCHAs remain a critical defense mechanism against malicious bots. However, existing CAPTCHA schemes encompass a diverse range of modalities -- from static distorted text and obfuscated images to interactive clicks, sliding puzzles, and logic-based questions -- yet the community still lacks a unified, large-scale, multimodal benchmark to rigorously evaluate their security robustness. To address this gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking suite that integrates heterogeneous CAPTCHA types into a single evaluation protocol. Leveraging a shared vision-language model backbone, we fine-tune specialized cracking agents for each CAPTCHA category, enabling consistent, cross-modal assessments. Extensive experiments reveal that MCA-Bench effectively maps the vulnerability spectrum of modern CAPTCHA designs under varied attack settings, and crucially offers the first quantitative analysis of how challenge complexity, interaction depth, and model solvability interrelate. Based on these findings, we propose three actionable design principles and identify key open challenges, laying the groundwork for systematic CAPTCHA hardening, fair benchmarking, and broader community collaboration. Datasets and code are available online.