Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired

📄 arXiv: 2508.03651v1 📥 PDF

作者: Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo

分类: cs.HC, cs.AI

发布日期: 2025-08-05

备注: ACM ASSETS 2025


💡 一句话要点

探讨ChatGPT实时视频聊天在盲人辅助中的应用与挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实时视频AI 盲人辅助 用户体验 多模态交互 动态场景分析

📋 核心要点

  1. 现有的实时视频AI在动态场景中无法提供必要的实时描述,导致盲人用户在复杂环境中的辅助效果不佳。
  2. 论文通过探索性研究,分析了ChatGPT的高级语音与视频在多种真实场景中的应用,旨在揭示其潜在的优势与不足。
  3. 研究结果表明,尽管系统在静态场景中表现良好,但在动态情况下的表现不尽如人意,且存在用户信任问题。

📝 摘要(中文)

近年来,大型多模态模型的进步为盲人或视力障碍者(BVI)提供了通过互动系统解读和参与现实世界的新能力。然而,这些能力在支持多样化的现实辅助任务中的潜在益处和挑战仍不明确。本文通过对八名BVI参与者的探索性研究,展示了他们在不同场景中使用ChatGPT的高级语音与视频的体验。研究发现,当前的实时视频AI在静态视觉场景中有效提供指导和答案,但在动态情况下缺乏必要的实时描述。尽管参与者利用提供的视觉信息来补充他们的移动策略,但系统对用户视觉能力的假设、信息的虚假性和通用性响应导致了混淆和不信任。基于研究结果,本文讨论了对辅助视频AI代理的启示,包括增加现实使用的传感能力、确定适当的干预时机以及解决生态和安全问题。

🔬 方法详解

问题定义:本文旨在解决盲人或视力障碍者在使用实时视频AI进行日常活动时所面临的挑战,尤其是在动态环境中的信息获取不足。现有方法在静态场景中表现良好,但在动态场景中缺乏实时描述,影响用户的信任和安全。

核心思路:论文的核心思路是通过对BVI用户的实际使用体验进行深入分析,识别当前系统的不足之处,并提出改进建议,以增强实时视频AI在复杂环境中的实用性和可靠性。

技术框架:研究采用了用户体验研究的方法,参与者在不同的室内和室外环境中使用ChatGPT的高级语音与视频,记录其互动过程和反馈。主要模块包括用户任务执行、系统反馈和用户感知评估。

关键创新:最重要的技术创新点在于通过实证研究揭示了实时视频AI在动态场景中的局限性,并提出了针对性的改进建议。这与现有方法的主要区别在于强调了用户体验和信任问题。

关键设计:研究中关注了系统的语音交互质量、信息准确性和用户反馈机制等关键设计要素,确保能够真实反映用户在使用过程中的感受和需求。

📊 实验亮点

实验结果显示,尽管在静态场景中,系统能够有效提供指导,但在动态场景中,用户对空间和距离信息的准确性存在明显不足,导致信任度下降。参与者反馈表明,系统的高质量语音交互并未完全弥补信息的不足,影响了整体体验。

🎯 应用场景

该研究的潜在应用领域包括盲人辅助技术、智能家居系统和公共场所导航等。通过改进实时视频AI的交互能力,可以显著提升视力障碍者的生活质量和独立性,未来可能在更多领域得到广泛应用。

📄 摘要(原文)

Recent advancements in large multimodal models have provided blind or visually impaired (BVI) individuals with new capabilities to interpret and engage with the real world through interactive systems that utilize live video feeds. However, the potential benefits and challenges of such capabilities to support diverse real-world assistive tasks remain unclear. In this paper, we present findings from an exploratory study with eight BVI participants. Participants used ChatGPT's Advanced Voice with Video, a state-of-the-art live video AI released in late 2024, in various real-world scenarios, from locating objects to recognizing visual landmarks, across unfamiliar indoor and outdoor environments. Our findings indicate that current live video AI effectively provides guidance and answers for static visual scenes but falls short in delivering essential live descriptions required in dynamic situations. Despite inaccuracies in spatial and distance information, participants leveraged the provided visual information to supplement their mobility strategies. Although the system was perceived as human-like due to high-quality voice interactions, assumptions about users' visual abilities, hallucinations, generic responses, and a tendency towards sycophancy led to confusion, distrust, and potential risks for BVI users. Based on the results, we discuss implications for assistive video AI agents, including incorporating additional sensing capabilities for real-world use, determining appropriate intervention timing beyond turn-taking interactions, and addressing ecological and safety concerns.