According to Me: Long-Term Personalized Referential Memory QA
作者: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne
分类: cs.AI, cs.CL, cs.CV
发布日期: 2026-03-02
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出ATM-Bench基准测试,用于评估多模态、多源的长期个性化指代记忆问答系统。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长期记忆 个性化AI助手 多模态学习 记忆问答 指代消解
📋 核心要点
- 现有长期记忆基准侧重于对话历史,忽略了多模态、多来源的个性化指代,无法真实反映用户生活经验。
- 论文提出Schema-Guided Memory (SGM),通过结构化表示不同来源的记忆条目,提升记忆问答的准确性。
- 实验表明,在ATM-Bench-Hard数据集上,现有方法性能不足,而SGM能够有效提升性能,优于描述性记忆。
📝 摘要(中文)
个性化AI助手必须能够回忆和推理长期用户记忆,这些记忆自然跨越多种模态和来源,例如图像、视频和电子邮件。然而,现有的长期记忆基准主要关注对话历史,未能捕捉到基于真实生活经验的个性化指代。我们引入了ATM-Bench,这是第一个用于多模态、多源个性化指代记忆问答的基准。ATM-Bench包含大约四年的隐私保护个人记忆数据和人工标注的问答对,以及带有ground-truth记忆证据,包括需要解决个人指代、多源多证据推理和处理冲突证据的查询。我们提出了Schema-Guided Memory (SGM)来结构化地表示来自不同来源的记忆条目。在实验中,我们实现了5个最先进的记忆系统以及一个标准的RAG基线,并评估了具有不同记忆摄取、检索和答案生成技术的变体。我们发现在ATM-Bench-Hard集上的性能较差(低于20%的准确率),并且SGM改进了优于先前工作中常用的描述性记忆。
🔬 方法详解
问题定义:现有长期记忆问答系统主要关注对话历史,缺乏对多模态(图像、视频、邮件等)、多来源个人记忆的处理能力,无法有效解决需要理解个人指代、多证据推理以及处理冲突证据的复杂查询。现有方法难以捕捉用户真实的生活经验,限制了个性化AI助手的应用。
核心思路:论文的核心思路是构建一个更贴近真实用户场景的基准测试数据集ATM-Bench,并提出Schema-Guided Memory (SGM)来结构化地表示和管理来自不同来源的记忆条目。通过引入结构化信息,SGM能够更好地理解和推理用户记忆,从而提升问答系统的性能。
技术框架:整体框架包含三个主要阶段:记忆摄取(Memory Ingestion)、记忆检索(Memory Retrieval)和答案生成(Answer Generation)。在记忆摄取阶段,来自不同来源(如图像、视频、邮件)的个人记忆数据被转化为结构化的SGM表示。在记忆检索阶段,系统根据用户提出的问题,从SGM中检索相关的记忆条目。在答案生成阶段,系统利用检索到的记忆条目生成最终答案。论文还评估了标准RAG(Retrieval-Augmented Generation)基线。
关键创新:最重要的技术创新点在于Schema-Guided Memory (SGM) 的引入。SGM通过预定义的schema来结构化地表示记忆条目,从而能够更好地捕捉记忆之间的关系和上下文信息。与传统的描述性记忆方法相比,SGM能够提供更丰富的语义信息,从而提升检索和推理的准确性。SGM允许系统区分不同来源的证据,并处理潜在的冲突。
关键设计:SGM的具体schema设计需要根据不同的数据来源进行调整。例如,对于图像数据,schema可以包含图像描述、拍摄时间、地点等信息;对于邮件数据,schema可以包含发件人、收件人、主题、正文等信息。论文中具体SGM的参数设置和网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在ATM-Bench-Hard数据集上,现有最先进的记忆系统性能较差,准确率低于20%。而引入Schema-Guided Memory (SGM)后,系统性能得到显著提升,证明了SGM的有效性。SGM优于先前工作中常用的描述性记忆。
🎯 应用场景
该研究成果可应用于开发更智能、更个性化的AI助手,例如能够根据用户的个人记忆提供更准确、更相关的建议和帮助。在医疗健康领域,可以帮助医生更好地了解患者的病史和生活习惯,从而提供更有效的治疗方案。在教育领域,可以帮助学生更好地回顾和理解学习内容,提高学习效率。
📄 摘要(原文)
Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench