Memory-Driven Self-Improvement for Decision Making with Large Language Models

📄 arXiv: 2509.26340v1 📥 PDF

作者: Xue Yan, Zijing Ou, Mengyue Yang, Yan Song, Haifeng Zhang, Yingzhen Li, Jun Wang

分类: cs.LG

发布日期: 2025-09-30


💡 一句话要点

提出基于记忆驱动的自提升框架,提升LLM在序列决策任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 序列决策 强化学习 记忆网络 自提升学习

📋 核心要点

  1. 现有LLM在序列决策任务中,由于缺乏特定任务数据,难以有效适应。
  2. 提出记忆驱动的自提升框架,结合LLM先验知识与领域经验记忆,相互促进。
  3. 实验表明,该方法显著优于传统强化学习和基于LLM的基线,提升显著。

📝 摘要(中文)

大型语言模型(LLM)凭借其广泛的先验知识,已成为序列决策(SDM)任务中有效的动作策略。然而,这种广泛但通用的知识通常不足以应对特定决策任务,尤其是在任务相关数据有限的情况下,这使得LLM难以有效地适应特定SDM任务。为了解决这一挑战,我们提出了一种记忆驱动的自提升框架,该框架将LLM的通用先验知识与领域特定经验的紧凑记忆相结合。记忆保留了过去的交互和相关的Q值,从而捕获了与决策相关的知识,有助于准确的价值估计,并为LLM先验的改进提供信息。反过来,改进后的LLM先验会生成更高奖励的轨迹,从而进一步丰富记忆,形成一个自然的自提升框架,其中记忆和LLM先验相互加强。实验表明,我们的记忆驱动方法显著优于传统的强化学习和基于LLM的基线,例如,在同分布任务上的性能提高了40%以上,在推广到ALFWorld中未见过的任务时,性能提高了75%以上。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在序列决策(SDM)任务中,由于缺乏特定任务相关数据而难以有效适应的问题。现有的LLM虽然拥有广泛的先验知识,但这些知识通常是通用的,不足以应对特定SDM任务,导致性能受限。传统的强化学习方法虽然可以学习特定任务的策略,但需要大量的样本数据,且泛化能力较弱。

核心思路:论文的核心思路是将LLM的通用先验知识与领域特定经验的紧凑记忆相结合,形成一个自提升的框架。通过记忆模块存储过去的交互经验和相应的Q值,从而捕获与决策相关的知识,并利用这些知识来改进LLM的先验。改进后的LLM能够生成更高奖励的轨迹,从而进一步丰富记忆,形成一个正反馈循环。

技术框架:该框架包含两个主要组成部分:LLM和记忆模块。LLM作为动作策略,负责根据当前状态生成动作。记忆模块存储过去的交互经验,包括状态、动作、奖励和下一个状态,以及相应的Q值。框架的整体流程如下:1) LLM根据当前状态生成动作;2) 执行动作并获得奖励;3) 将交互经验存储到记忆模块中;4) 利用记忆模块中的经验来更新LLM的先验;5) 重复以上步骤,直到收敛。

关键创新:该论文最重要的技术创新点在于将LLM的通用先验知识与领域特定经验的记忆相结合,形成一个自提升的框架。这种方法能够有效地利用LLM的先验知识,同时通过记忆模块来学习特定任务的知识,从而提高LLM在SDM任务中的性能。与现有方法相比,该方法不需要大量的样本数据,且具有较强的泛化能力。

关键设计:论文的关键设计包括:1) 记忆模块的结构和更新策略;2) 如何利用记忆模块中的经验来更新LLM的先验;3) 探索-利用策略的设计,以平衡探索新状态和利用已知知识之间的关系。具体的参数设置、损失函数、网络结构等技术细节在论文中进行了详细描述,但此处未提供具体数值。

📊 实验亮点

实验结果表明,该方法在ALFWorld环境中显著优于传统的强化学习和基于LLM的基线方法。在同分布任务上,性能提升超过40%;在推广到未见过的任务时,性能提升超过75%。这些结果表明,该方法能够有效地利用LLM的先验知识和领域特定经验,从而提高LLM在SDM任务中的性能和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要序列决策的场景,例如游戏AI、机器人控制、自动驾驶、推荐系统等。通过结合LLM的通用知识和特定领域的经验,可以提高决策系统的智能化水平和适应能力,从而实现更高效、更可靠的自动化控制。未来,该方法有望在更多复杂和动态的环境中得到应用,推动人工智能技术的发展。

📄 摘要(原文)

Large language models (LLMs) have emerged as effective action policies for sequential decision-making (SDM) tasks due to their extensive prior knowledge. However, this broad yet general knowledge is often insufficient for specific decision-making tasks with limited task-related data, making it challenging to efficiently adapt LLMs to specific SDM tasks. To address this challenge, we propose a memory-driven self-improvement framework that combines LLM general prior knowledge with a compact memory of domain-specific experiences. Memory retains past interactions and associated Q-values, thereby capturing decision-relevant knowledge that facilitates accurate value estimation and informs the LLM prior refinement. The refined LLM prior, in turn, generates higher-reward trajectories that further enrich memory, forming a natural self-improvement framework where memory and LLM prior mutually reinforce each other. Experiments show that our memory-driven approach significantly outperforms both traditional RL and LLM-based baselines, e.g., improving performance by over 40\% on in-distribution tasks and over 75\% when generalized to unseen tasks in ALFWorld.