Cognitive Prosthetic: An AI-Enabled Multimodal System for Episodic Recall in Knowledge Work
作者: Lawrence Obiuwevwi, Krzysztof J. Rechowicz, Vikas Ashok, Sachin Shetty, Sampath Jayarathna
分类: cs.HC, cs.AI
发布日期: 2026-03-02
备注: CHI EA '26
💡 一句话要点
提出CPMS认知假肢系统,利用AI增强知识工作中的情景记忆。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 认知假肢 情景记忆 多模态系统 自然语言检索 知识工作
📋 核心要点
- 现有工作场所工具难以整合认知、生理和注意力上下文到可检索的记忆表征中,影响情景记忆。
- CPMS系统通过同步语音、生理信号和注视行为,构建可查询的情景记忆,支持自然语言检索。
- CPMS是一个模块化、具有隐私保护的系统,验证了AI赋能记忆增强在工作场所的可行性。
📝 摘要(中文)
现代知识工作场所日益加剧了人类情景记忆的负担,因为个体需要在碎片化的注意力、重叠的会议和多模态信息流中进行导航。现有的工作场所工具通过笔记或分析提供部分支持,但很少将认知、生理和注意力上下文整合到可检索的记忆表征中。本文提出了认知假肢多模态系统(CPMS)——一个AI赋能的概念验证系统,旨在通过结构化的情景捕获和自然语言检索来支持知识工作中的情景回忆。CPMS将语音转录、生理信号和注视行为同步到时间对齐的、基于JSON的情景记录中,并在本地进行处理以保护隐私。除了数据记录外,该系统还包括一个基于Web的检索界面,允许用户使用自然语言查询过去的工作场所体验,参考语义内容、时间、注意力焦点或生理状态。我们将CPMS作为一个功能性的概念验证系统,展示了将异构传感器数据转换为可查询的情景记忆的技术可行性。该系统被设计为模块化的,支持使用部分传感器配置进行操作,并结合了工作场所部署的隐私保护措施。这项工作贡献了一个端到端的、具有隐私意识的架构,用于在工作场所环境中进行AI赋能的记忆增强。
🔬 方法详解
问题定义:现代知识工作者面临大量碎片化、多模态的信息流,导致情景记忆负担加重。现有工具无法有效整合认知、生理和注意力信息,难以支持高效的情景回忆。因此,需要一种能够捕获、存储和检索包含丰富上下文信息的情景记忆系统。
核心思路:CPMS的核心思路是将工作场所中的各种传感器数据(语音、生理信号、眼动追踪)进行同步记录,并将其转化为结构化的、可查询的情景记忆。通过自然语言查询接口,用户可以根据语义内容、时间、注意力焦点或生理状态检索相关记忆。这种方法旨在模拟人类记忆的组织方式,并利用AI技术增强记忆检索能力。
技术框架:CPMS系统主要包含三个模块:1) 数据采集模块:负责从各种传感器(麦克风、生理传感器、眼动仪)收集数据,并将数据进行时间同步。2) 数据处理模块:将采集到的数据进行处理,例如语音转录、生理信号分析、眼动数据分析,并将处理后的数据存储为JSON格式的情景记录。3) 检索界面模块:提供一个基于Web的自然语言查询界面,用户可以通过自然语言查询相关的情景记忆。系统使用本地处理来保护用户隐私。
关键创新:CPMS的关键创新在于其端到端的架构,能够将异构传感器数据转化为可查询的情景记忆。与传统的笔记或分析工具不同,CPMS能够整合认知、生理和注意力上下文信息,提供更丰富、更全面的记忆表征。此外,CPMS的模块化设计使其能够适应不同的传感器配置,并具有隐私保护功能。
关键设计:CPMS使用JSON格式存储情景记录,方便数据的存储和检索。系统采用模块化设计,各个模块可以独立运行和升级。为了保护用户隐私,所有数据处理都在本地进行。自然语言查询界面使用户能够方便地检索相关的情景记忆。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未来的研究方向。
🖼️ 关键图片
📊 实验亮点
CPMS系统作为一个概念验证系统,成功地展示了将异构传感器数据转化为可查询的情景记忆的技术可行性。该系统能够同步语音、生理信号和注视行为,并提供自然语言查询界面。虽然论文没有提供具体的性能数据,但它验证了AI赋能记忆增强在工作场所的可行性,并为未来的研究奠定了基础。
🎯 应用场景
CPMS系统可应用于各种知识工作场景,例如会议记录、项目管理、培训学习等。它可以帮助知识工作者更好地回忆过去的工作经历,提高工作效率和创造力。未来,该系统可以与虚拟现实、增强现实等技术结合,提供更沉浸式的记忆增强体验。
📄 摘要(原文)
Modern knowledge workplaces increasingly strain human episodic memory as individuals navigate fragmented attention, overlapping meetings, and multimodal information streams. Existing workplace tools provide partial support through note-taking or analytics but rarely integrate cognitive, physiological, and attentional context into retrievable memory representations. This paper presents the Cognitive Prosthetic Multimodal System (CPMS) --an AI-enabled proof-of-concept designed to support episodic recall in knowledge work through structured episodic capture and natural language retrieval. CPMS synchronizes speech transcripts, physiological signals, and gaze behavior into temporally aligned, JSON-based episodic records processed locally for privacy. Beyond data logging, the system includes a web-based retrieval interface that allows users to query past workplace experiences using natural language, referencing semantic content, time, attentional focus, or physiological state. We present CPMS as a functional proof-of-concept demonstrating the technical feasibility of transforming heterogeneous sensor data into queryable episodic memories. The system is designed to be modular, supporting operation with partial sensor configurations, and incorporates privacy safeguards for workplace deployment. This work contributes an end-to-end, privacy-aware architecture for AI-enabled memory augmentation in workplace settings.