Narrative-Guided Reinforcement Learning: A Platform for Studying Language Model Influence on Decision Making
作者: Anup Tuladhar, Araz Minhas, Adam Kirton, Eli Kinney-Lang
分类: cs.AI, cs.MA, stat.ML
发布日期: 2025-09-10
备注: Extended Abstract for RLDM 2025
💡 一句话要点
提出一个结合强化学习与语言模型的平台,研究叙事框架对AI决策的影响
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 语言模型 叙事框架 AI决策 双系统架构
📋 核心要点
- 现有AI系统决策与叙事能力分离,缺乏对叙事如何影响决策的研究。
- 提出双系统架构,结合强化学习策略和语言模型,探索叙事框架对决策的影响。
- 构建可配置网格世界环境,记录决策指标,为研究叙事影响提供基础平台。
📝 摘要(中文)
本文介绍了一个初步的实验平台,旨在通过结合强化学习(RL)与语言模型推理,探索叙事元素如何影响AI决策。尽管AI系统现在既能做出决策,又能进行叙事推理,但这些能力大多是独立研究的。我们的平台试图通过一个双系统架构来弥合这一差距,研究叙事框架如何影响基于奖励的学习。该系统包括一个强化学习策略,该策略根据过去的经验提出行动建议,以及一个语言模型,该模型通过不同的叙事框架处理这些建议以指导决策。这种设置可以在保持一致的环境和奖励结构的同时,对叙事元素进行初步实验。我们在一个可配置的网格世界环境中实现了这种架构,在该环境中,智能体接收策略建议和关于其周围环境的信息。该平台的模块化设计有助于对环境复杂性、叙事参数以及强化学习和基于叙事的决策之间的交互进行受控测试。我们的日志系统捕获基本的决策指标,从RL策略值到语言模型推理再到行动选择模式。虽然是初步的,但该实现为研究不同的叙事框架如何影响基于奖励的决策,以及探索基于优化的学习和AI系统中的符号推理之间潜在的交互奠定了基础。
🔬 方法详解
问题定义:现有AI系统在决策和叙事推理方面通常是独立研究的,缺乏对叙事元素如何影响AI决策的深入理解。现有的强化学习方法通常只关注奖励最大化,而忽略了人类决策中重要的叙事因素。因此,如何将叙事框架融入到AI决策过程中,并研究其影响,是一个重要的研究问题。
核心思路:本文的核心思路是将强化学习策略与语言模型相结合,构建一个双系统架构。强化学习策略负责根据过去的经验提出行动建议,而语言模型则负责通过不同的叙事框架处理这些建议,从而指导最终的决策。通过这种方式,可以研究不同的叙事框架如何影响基于奖励的学习,并探索优化学习和符号推理之间的潜在交互。
技术框架:该平台采用双系统架构,主要包含两个模块:强化学习策略模块和语言模型模块。强化学习策略模块负责根据环境状态和奖励信号学习最优策略,并生成行动建议。语言模型模块则接收来自强化学习策略模块的行动建议,并根据预设的叙事框架对这些建议进行处理,生成最终的行动决策。这两个模块在一个可配置的网格世界环境中进行交互,智能体接收策略建议和环境信息,并根据语言模型的输出执行行动。
关键创新:该平台的主要创新在于将强化学习与语言模型相结合,构建了一个可用于研究叙事框架对AI决策影响的实验平台。该平台采用模块化设计,可以灵活配置环境复杂性、叙事参数以及强化学习和基于叙事的决策之间的交互。此外,该平台还提供了一个日志系统,用于捕获基本的决策指标,从而方便研究人员分析和理解叙事框架对AI决策的影响。
关键设计:该平台使用可配置的网格世界环境,允许用户自定义环境的大小、障碍物的位置以及奖励函数。强化学习策略模块可以使用不同的强化学习算法,例如Q-learning或SARSA。语言模型模块可以使用不同的预训练语言模型,例如GPT-2或BERT,并根据不同的叙事框架进行微调。此外,该平台还提供了一组参数,用于控制叙事框架的强度和类型,例如情感倾向、道德准则等。
📊 实验亮点
该平台成功地将强化学习与语言模型相结合,构建了一个可用于研究叙事框架对AI决策影响的实验平台。通过在可配置的网格世界环境中进行实验,研究人员可以观察到不同的叙事框架如何影响智能体的行动选择和学习过程。该平台还提供了一个日志系统,用于捕获基本的决策指标,例如RL策略值、语言模型推理结果和行动选择模式,从而方便研究人员进行深入分析。
🎯 应用场景
该研究成果可应用于多个领域,例如游戏AI、机器人导航、自动驾驶等。通过引入叙事框架,可以使AI系统在决策时更加符合人类的价值观和道德准则,从而提高AI系统的可信度和可靠性。此外,该研究还可以帮助我们更好地理解人类决策过程中的叙事因素,为开发更智能、更人性化的AI系统提供理论指导。
📄 摘要(原文)
We present a preliminary experimental platform that explores how narrative elements might shape AI decision-making by combining reinforcement learning (RL) with language model reasoning. While AI systems can now both make decisions and engage in narrative reasoning, these capabilities have mostly been studied separately. Our platform attempts to bridge this gap using a dual-system architecture to examine how narrative frameworks could influence reward-based learning. The system comprises a reinforcement learning policy that suggests actions based on past experience, and a language model that processes these suggestions through different narrative frameworks to guide decisions. This setup enables initial experimentation with narrative elements while maintaining consistent environment and reward structures. We implement this architecture in a configurable gridworld environment, where agents receive both policy suggestions and information about their surroundings. The platform's modular design facilitates controlled testing of environmental complexity, narrative parameters, and the interaction between reinforcement learning and narrative-based decisions. Our logging system captures basic decision metrics, from RL policy values to language model reasoning to action selection patterns. While preliminary, this implementation provides a foundation for studying how different narrative frameworks might affect reward-based decisions and exploring potential interactions between optimization-based learning and symbolic reasoning in AI systems.