Towards Blind and Low-Vision Accessibility of Lightweight VLMs and Custom LLM-Evals
作者: Shruti Singh Baghel, Yash Pratap Singh Rathore, Sushovan Jena, Anurag Pradhan, Amit Shukla, Arnav Bhavsar, Pawan Goyal
分类: cs.CV, cs.CL
发布日期: 2025-11-13
备注: 8 pages
💡 一句话要点
针对视障人士,评估轻量级VLM在视频理解中的可访问性,并提出定制化评估框架。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 视觉语言模型 可访问性 盲人辅助 视频理解 轻量级模型
📋 核心要点
- 现有VLM模型体积庞大,难以在资源受限设备上部署,限制了其在视障人士辅助应用中的应用。
- 论文提出针对视障人士的视频理解评估框架,并研究不同大小的轻量级VLM模型在可访问性方面的表现。
- 实验结果表明,轻量级VLM在移动设备上具有可行性,并为未来的模型优化提供了指导。
📝 摘要(中文)
大型视觉语言模型(VLM)在理解和生成视频描述方面表现出色,但其高内存、计算和部署需求阻碍了实际应用,特别是对于依赖详细、上下文感知描述的盲人和低视力(BLV)用户。为了研究模型大小对以可访问性为中心的描述质量的影响,我们评估了参数量分别为500M和2.2B的SmolVLM2变体,数据集包括AVCaps(室外)和Charades(室内)。我们提出了两个专门为BLV可访问性评估而设计的新型评估框架:多上下文BLV框架,评估空间定位、社交互动、动作事件和环境上下文;导航辅助框架,侧重于移动关键信息。此外,我们系统地评估了四种不同的提示设计策略,并在智能手机上部署了这两个模型,评估FP32和INT8精度变体,以评估资源受限的移动设备上的实际性能约束。
🔬 方法详解
问题定义:现有的大型视觉语言模型(VLMs)虽然在视频描述方面表现出色,但其庞大的模型体积和计算需求使其难以在资源受限的移动设备上部署。这对于依赖VLM提供视频理解和描述的盲人和低视力(BLV)用户来说是一个显著的挑战,因为他们需要能够随时随地访问这些功能。因此,如何评估和优化轻量级VLM在BLV辅助应用中的性能,是一个亟待解决的问题。
核心思路:论文的核心思路是通过评估不同大小的轻量级VLM(SmolVLM2)在两个专门设计的BLV可访问性评估框架上的表现,来研究模型大小对描述质量的影响。同时,探索不同的提示设计策略和量化方法(FP32和INT8),以优化模型在移动设备上的部署和性能。
技术框架:该研究的技术框架主要包括以下几个部分:1) 选择轻量级VLM模型SmolVLM2,并使用不同参数量的变体(500M和2.2B)。2) 构建两个新的评估框架:多上下文BLV框架和导航辅助框架,用于评估模型在空间定位、社交互动、动作事件、环境上下文和移动关键信息等方面的理解能力。3) 设计四种不同的提示策略,以探索最佳的提示方式。4) 在智能手机上部署模型,并评估FP32和INT8精度下的性能。
关键创新:论文的关键创新在于提出了两个专门针对BLV可访问性评估的框架:多上下文BLV框架和导航辅助框架。这些框架能够更全面地评估VLM在理解和描述视频内容,并为BLV用户提供有价值信息方面的能力。此外,该研究还系统地评估了不同提示策略和量化方法对模型性能的影响,为轻量级VLM在移动设备上的部署提供了指导。
关键设计:多上下文BLV框架评估四个关键上下文:空间定位、社交互动、动作事件和环境。导航辅助框架则侧重于评估模型提取移动关键信息的能力,例如障碍物、方向指示等。提示策略包括不同的指令和上下文信息,以引导模型生成更准确和有用的描述。量化方法包括FP32和INT8,用于评估模型在不同精度下的性能和资源消耗。
📊 实验亮点
实验结果表明,SmolVLM2模型在两个评估框架上均表现出良好的性能,尤其是在理解空间定位和动作事件方面。通过对比不同提示策略,发现特定的提示方式能够显著提高模型的描述质量。此外,INT8量化在保证模型性能的同时,显著降低了模型体积和计算需求,使其更适合在移动设备上部署。
🎯 应用场景
该研究成果可应用于开发面向视障人士的智能辅助设备和应用,例如智能眼镜、手机应用等,帮助他们更好地理解周围环境,提高生活质量和出行安全。此外,该研究提出的评估框架也可用于评估其他VLM模型在可访问性方面的表现,推动相关技术的发展。
📄 摘要(原文)
Large Vision-Language Models (VLMs) excel at understanding and generating video descriptions but their high memory, computation, and deployment demands hinder practical use particularly for blind and low-vision (BLV) users who depend on detailed, context-aware descriptions. To study the effect of model size on accessibility-focused description quality, we evaluate SmolVLM2 variants with 500M and 2.2B parameters across two diverse datasets: AVCaps (outdoor), and Charades (indoor). In this work, we introduce two novel evaluation frameworks specifically designed for BLV accessibility assessment: the Multi-Context BLV Framework evaluating spatial orientation, social interaction, action events, and ambience contexts; and the Navigational Assistance Framework focusing on mobility-critical information. Additionally, we conduct a systematic evaluation of four different prompt design strategies and deploy both models on a smartphone, evaluating FP32 and INT8 precision variants to assess real-world performance constraints on resource-limited mobile devices.