According to Me: Long-Term Personalized Referential Memory QA

作者: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne

分类: cs.AI, cs.CL, cs.CV

发布日期: 2026-03-02

备注: Preprint

🔗 代码/项目: GITHUB

💡 一句话要点

提出ATM-Bench基准测试，用于评估多模态、多源的长期个性化指代记忆问答系统。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长期记忆 个性化AI助手 多模态学习 记忆问答 指代消解

📋 核心要点

现有长期记忆基准侧重于对话历史，忽略了多模态、多来源的个性化指代，无法真实反映用户生活经验。
论文提出Schema-Guided Memory (SGM)，通过结构化表示不同来源的记忆条目，提升记忆问答的准确性。
实验表明，在ATM-Bench-Hard数据集上，现有方法性能不足，而SGM能够有效提升性能，优于描述性记忆。

📝 摘要（中文）

个性化AI助手必须能够回忆和推理长期用户记忆，这些记忆自然跨越多种模态和来源，例如图像、视频和电子邮件。然而，现有的长期记忆基准主要关注对话历史，未能捕捉到基于真实生活经验的个性化指代。我们引入了ATM-Bench，这是第一个用于多模态、多源个性化指代记忆问答的基准。ATM-Bench包含大约四年的隐私保护个人记忆数据和人工标注的问答对，以及带有ground-truth记忆证据，包括需要解决个人指代、多源多证据推理和处理冲突证据的查询。我们提出了Schema-Guided Memory (SGM)来结构化地表示来自不同来源的记忆条目。在实验中，我们实现了5个最先进的记忆系统以及一个标准的RAG基线，并评估了具有不同记忆摄取、检索和答案生成技术的变体。我们发现在ATM-Bench-Hard集上的性能较差（低于20%的准确率），并且SGM改进了优于先前工作中常用的描述性记忆。

🔬 方法详解

问题定义：现有长期记忆问答系统主要关注对话历史，缺乏对多模态（图像、视频、邮件等）、多来源个人记忆的处理能力，无法有效解决需要理解个人指代、多证据推理以及处理冲突证据的复杂查询。现有方法难以捕捉用户真实的生活经验，限制了个性化AI助手的应用。

核心思路：论文的核心思路是构建一个更贴近真实用户场景的基准测试数据集ATM-Bench，并提出Schema-Guided Memory (SGM)来结构化地表示和管理来自不同来源的记忆条目。通过引入结构化信息，SGM能够更好地理解和推理用户记忆，从而提升问答系统的性能。

技术框架：整体框架包含三个主要阶段：记忆摄取（Memory Ingestion）、记忆检索（Memory Retrieval）和答案生成（Answer Generation）。在记忆摄取阶段，来自不同来源（如图像、视频、邮件）的个人记忆数据被转化为结构化的SGM表示。在记忆检索阶段，系统根据用户提出的问题，从SGM中检索相关的记忆条目。在答案生成阶段，系统利用检索到的记忆条目生成最终答案。论文还评估了标准RAG（Retrieval-Augmented Generation）基线。

关键创新：最重要的技术创新点在于Schema-Guided Memory (SGM) 的引入。SGM通过预定义的schema来结构化地表示记忆条目，从而能够更好地捕捉记忆之间的关系和上下文信息。与传统的描述性记忆方法相比，SGM能够提供更丰富的语义信息，从而提升检索和推理的准确性。SGM允许系统区分不同来源的证据，并处理潜在的冲突。

关键设计：SGM的具体schema设计需要根据不同的数据来源进行调整。例如，对于图像数据，schema可以包含图像描述、拍摄时间、地点等信息；对于邮件数据，schema可以包含发件人、收件人、主题、正文等信息。论文中具体SGM的参数设置和网络结构等技术细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在ATM-Bench-Hard数据集上，现有最先进的记忆系统性能较差，准确率低于20%。而引入Schema-Guided Memory (SGM)后，系统性能得到显著提升，证明了SGM的有效性。SGM优于先前工作中常用的描述性记忆。

🎯 应用场景

该研究成果可应用于开发更智能、更个性化的AI助手，例如能够根据用户的个人记忆提供更准确、更相关的建议和帮助。在医疗健康领域，可以帮助医生更好地了解患者的病史和生活习惯，从而提供更有效的治疗方案。在教育领域，可以帮助学生更好地回顾和理解学习内容，提高学习效率。

📄 摘要（原文）

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench

According to Me: Long-Term Personalized Referential Memory QA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理