OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

📄 arXiv: 2604.01007v1 📥 PDF

作者: Jiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao

分类: cs.AI

发布日期: 2026-04-01

🔗 代码/项目: GITHUB


💡 一句话要点

OmniMem:通过自主研究发现终身多模态Agent记忆

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态记忆 自主研究 终身学习 AI Agent Transformer网络

📋 核心要点

  1. 现有AI Agent在处理长期多模态信息时,面临记忆保留、组织和检索的挑战,成为性能瓶颈。
  2. 论文提出OmniMem框架,利用自主研究管道自动探索架构、检索策略等,优化Agent的终身多模态记忆。
  3. 实验表明,OmniMem在LoCoMo和Mem-Gallery数据集上显著提升性能,超越传统AutoML方法。

📝 摘要(中文)

AI Agent越来越多地在更长的时间范围内运行,但它们保留、组织和回忆多模态经验的能力仍然是一个关键瓶颈。构建有效的终身记忆需要在架构、检索策略、提示工程和数据管道之间进行广泛的设计空间探索;这个空间太大且相互关联,无法通过手动探索或传统的AutoML进行有效探索。我们部署了一个自主研究管道来发现OmniMem,这是一个用于终身AI Agent的统一多模态记忆框架。从一个简单的基线(在LoCoMo上F1=0.117)开始,该管道自主执行了在两个基准测试上的约50个实验,诊断了失败模式,提出了架构修改,并修复了数据管道错误,所有这些都在内部循环中没有人为干预的情况下完成。由此产生的系统在两个基准测试上都达到了最先进的水平,相对于初始配置,在LoCoMo上将F1提高了+411%(0.117→0.598),在Mem-Gallery上提高了+214%(0.254→0.797)。至关重要的是,最具影响力的发现不是超参数调整:错误修复(+175%)、架构更改(+44%)和提示工程(在特定类别上+188%)各自单独超过了所有超参数调整的累积贡献,展示了从根本上超越传统AutoML的能力。我们提供了一个六种发现类型的分类,并确定了四个使多模态记忆特别适合自主研究的属性,为将自主研究管道应用于其他AI系统领域提供了指导。代码可在https://github.com/aiming-lab/OmniMem 获取。

🔬 方法详解

问题定义:现有AI Agent在处理长期多模态信息时,面临记忆容量有限、信息组织困难、检索效率低下的问题。传统方法依赖人工设计或简单的超参数搜索,难以充分探索巨大的设计空间,无法有效提升Agent的终身学习能力。

核心思路:论文的核心思路是利用自主研究管道,自动探索和优化多模态Agent的记忆框架。通过自动化实验、错误诊断、架构修改和数据管道修复,无需人工干预地发现最优的记忆结构和策略。这种方法能够更全面地探索设计空间,发现人工难以发现的优化方案。

技术框架:OmniMem框架的核心是一个自主研究管道,它包含以下主要模块:1) 实验设计:自动生成不同的记忆架构、检索策略和提示工程配置。2) 实验执行:在LoCoMo和Mem-Gallery等基准测试上运行实验。3) 性能评估:评估实验结果,识别失败模式。4) 知识发现:分析实验数据,提出架构修改、数据管道修复和提示工程改进建议。5) 系统更新:根据知识发现的结果,自动更新OmniMem框架。

关键创新:论文的关键创新在于将自主研究的思想应用于多模态Agent的记忆框架设计。与传统的AutoML方法相比,OmniMem不仅能够优化超参数,还能够自动发现架构级别的改进、修复数据管道错误和优化提示工程,从而实现更显著的性能提升。

关键设计:OmniMem的关键设计包括:1) 使用Transformer网络作为记忆模块的基础架构。2) 设计了多种检索策略,包括基于语义相似度和基于时间序列的检索。3) 采用了对比学习损失函数,用于训练记忆模块的表示能力。4) 通过提示工程,引导Agent更好地利用记忆信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniMem在LoCoMo数据集上将F1值从0.117提升到0.598(+411%),在Mem-Gallery数据集上将F1值从0.254提升到0.797(+214%)。实验结果表明,错误修复、架构更改和提示工程对性能提升的贡献远大于超参数调整,验证了自主研究管道的有效性。

🎯 应用场景

OmniMem框架可应用于各种需要长期记忆和多模态信息处理的AI Agent,例如:智能助手、机器人导航、视频游戏AI等。该研究为构建更智能、更具适应性的AI系统提供了新的思路,有望推动AI技术在实际场景中的广泛应用。

📄 摘要(原文)

AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover OmniMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes ${\sim}50$ experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117$\to$0.598) and +214% on Mem-Gallery (0.254$\to$0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188\% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/OmniMem.