Memory-Driven Self-Improvement for Decision Making with Large Language Models

作者: Xue Yan, Zijing Ou, Mengyue Yang, Yan Song, Haifeng Zhang, Yingzhen Li, Jun Wang

分类: cs.LG

发布日期: 2025-09-30

💡 一句话要点

提出基于记忆驱动的自提升框架，提升LLM在序列决策任务中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 序列决策 强化学习 记忆网络 自提升学习

📋 核心要点

现有LLM在序列决策任务中，由于缺乏特定任务数据，难以有效适应。
提出记忆驱动的自提升框架，结合LLM先验知识与领域经验记忆，相互促进。
实验表明，该方法显著优于传统强化学习和基于LLM的基线，提升显著。

📝 摘要（中文）

大型语言模型(LLM)凭借其广泛的先验知识，已成为序列决策(SDM)任务中有效的动作策略。然而，这种广泛但通用的知识通常不足以应对特定决策任务，尤其是在任务相关数据有限的情况下，这使得LLM难以有效地适应特定SDM任务。为了解决这一挑战，我们提出了一种记忆驱动的自提升框架，该框架将LLM的通用先验知识与领域特定经验的紧凑记忆相结合。记忆保留了过去的交互和相关的Q值，从而捕获了与决策相关的知识，有助于准确的价值估计，并为LLM先验的改进提供信息。反过来，改进后的LLM先验会生成更高奖励的轨迹，从而进一步丰富记忆，形成一个自然的自提升框架，其中记忆和LLM先验相互加强。实验表明，我们的记忆驱动方法显著优于传统的强化学习和基于LLM的基线，例如，在同分布任务上的性能提高了40%以上，在推广到ALFWorld中未见过的任务时，性能提高了75%以上。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在序列决策（SDM）任务中，由于缺乏特定任务相关数据而难以有效适应的问题。现有的LLM虽然拥有广泛的先验知识，但这些知识通常是通用的，不足以应对特定SDM任务，导致性能受限。传统的强化学习方法虽然可以学习特定任务的策略，但需要大量的样本数据，且泛化能力较弱。

核心思路：论文的核心思路是将LLM的通用先验知识与领域特定经验的紧凑记忆相结合，形成一个自提升的框架。通过记忆模块存储过去的交互经验和相应的Q值，从而捕获与决策相关的知识，并利用这些知识来改进LLM的先验。改进后的LLM能够生成更高奖励的轨迹，从而进一步丰富记忆，形成一个正反馈循环。

技术框架：该框架包含两个主要组成部分：LLM和记忆模块。LLM作为动作策略，负责根据当前状态生成动作。记忆模块存储过去的交互经验，包括状态、动作、奖励和下一个状态，以及相应的Q值。框架的整体流程如下：1) LLM根据当前状态生成动作；2) 执行动作并获得奖励；3) 将交互经验存储到记忆模块中；4) 利用记忆模块中的经验来更新LLM的先验；5) 重复以上步骤，直到收敛。

关键创新：该论文最重要的技术创新点在于将LLM的通用先验知识与领域特定经验的记忆相结合，形成一个自提升的框架。这种方法能够有效地利用LLM的先验知识，同时通过记忆模块来学习特定任务的知识，从而提高LLM在SDM任务中的性能。与现有方法相比，该方法不需要大量的样本数据，且具有较强的泛化能力。

关键设计：论文的关键设计包括：1) 记忆模块的结构和更新策略；2) 如何利用记忆模块中的经验来更新LLM的先验；3) 探索-利用策略的设计，以平衡探索新状态和利用已知知识之间的关系。具体的参数设置、损失函数、网络结构等技术细节在论文中进行了详细描述，但此处未提供具体数值。

📊 实验亮点

实验结果表明，该方法在ALFWorld环境中显著优于传统的强化学习和基于LLM的基线方法。在同分布任务上，性能提升超过40%；在推广到未见过的任务时，性能提升超过75%。这些结果表明，该方法能够有效地利用LLM的先验知识和领域特定经验，从而提高LLM在SDM任务中的性能和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要序列决策的场景，例如游戏AI、机器人控制、自动驾驶、推荐系统等。通过结合LLM的通用知识和特定领域的经验，可以提高决策系统的智能化水平和适应能力，从而实现更高效、更可靠的自动化控制。未来，该方法有望在更多复杂和动态的环境中得到应用，推动人工智能技术的发展。

📄 摘要（原文）

Large language models (LLMs) have emerged as effective action policies for sequential decision-making (SDM) tasks due to their extensive prior knowledge. However, this broad yet general knowledge is often insufficient for specific decision-making tasks with limited task-related data, making it challenging to efficiently adapt LLMs to specific SDM tasks. To address this challenge, we propose a memory-driven self-improvement framework that combines LLM general prior knowledge with a compact memory of domain-specific experiences. Memory retains past interactions and associated Q-values, thereby capturing decision-relevant knowledge that facilitates accurate value estimation and informs the LLM prior refinement. The refined LLM prior, in turn, generates higher-reward trajectories that further enrich memory, forming a natural self-improvement framework where memory and LLM prior mutually reinforce each other. Experiments show that our memory-driven approach significantly outperforms both traditional RL and LLM-based baselines, e.g., improving performance by over 40\% on in-distribution tasks and over 75\% when generalized to unseen tasks in ALFWorld.

Memory-Driven Self-Improvement for Decision Making with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册