Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

📄 arXiv: 2508.21365v1 📥 PDF

作者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

分类: cs.AI

发布日期: 2025-08-29


💡 一句话要点

提出Think in Games框架以解决语言模型在游戏中的决策问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 程序性知识 游戏环境 决策支持 可解释性 自然语言处理

📋 核心要点

  1. 现有的强化学习方法在处理简单的互动任务时表现不佳,且通常需要大量的训练数据,导致效率低下。
  2. 本文提出的TiG框架通过将RL决策过程转化为语言建模任务,使大型语言模型能够在游戏环境中直接学习程序性知识。
  3. 实验结果显示,TiG在性能上与传统RL方法相当,但在数据和计算需求上显著降低,且提供了可解释的决策过程。

📝 摘要(中文)

大型语言模型(LLMs)在复杂推理任务中表现优异,但在简单的互动任务中却常常表现不佳。这揭示了声明性知识与程序性知识之间的关键差距。传统的强化学习(RL)代理通过环境交互获得程序性知识,但通常需要大量训练数据且运作如黑箱。为了解决这一挑战,本文提出了Think in Games(TiG)框架,使LLMs能够通过直接与游戏环境互动来发展程序性理解,同时保留其推理和解释能力。TiG将基于RL的决策制定重新构建为语言建模任务,LLMs生成语言引导的策略,并通过在线强化学习根据环境反馈进行迭代优化。实验结果表明,TiG成功弥合了声明性与程序性知识之间的差距,且在数据和计算需求上显著低于传统RL方法。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在互动任务中的决策能力不足问题,现有的强化学习方法通常需要大量数据且缺乏透明性。

核心思路:TiG框架通过将强化学习的决策过程转化为语言建模任务,使得LLMs能够在游戏环境中进行直接的程序性学习,同时保留其推理能力。

技术框架:TiG的整体架构包括两个主要模块:语言引导策略生成和在线强化学习。首先,LLMs生成基于语言的策略,然后通过环境反馈进行迭代优化。

关键创新:TiG的核心创新在于将RL决策过程与语言模型结合,使得模型不仅能够进行决策,还能提供自然语言的解释,从而提高透明性和可解释性。

关键设计:在设计中,TiG采用了迭代优化的策略生成机制,并结合了环境反馈来调整策略,确保模型在动态环境中能够有效学习。

📊 实验亮点

实验结果表明,TiG在多项任务中表现出色,达到了与传统强化学习方法相当的性能,同时在数据和计算需求上降低了约70%。此外,TiG能够提供逐步的自然语言解释,显著提升了决策过程的透明性。

🎯 应用场景

该研究的潜在应用领域包括教育游戏、智能助手和复杂决策支持系统。通过提高语言模型在互动任务中的表现,TiG可以在多种场景下提供更智能的决策支持,未来可能推动人机交互的进一步发展。

📄 摘要(原文)

Large language models (LLMs) excel at complex reasoning tasks such as mathematics and coding, yet they frequently struggle with simple interactive tasks that young children perform effortlessly. This discrepancy highlights a critical gap between declarative knowledge (knowing about something) and procedural knowledge (knowing how to do something). Although traditional reinforcement learning (RL) agents can acquire procedural knowledge through environmental interaction, they often operate as black boxes and require substantial training data. In contrast, LLMs possess extensive world knowledge and reasoning capabilities, but are unable to effectively convert this static knowledge into dynamic decision-making in interactive settings. To address this challenge, we propose Think in Games (TiG), a novel framework that empowers LLMs to develop procedural understanding through direct interaction with game environments, while retaining their inherent reasoning and explanatory abilities. Specifically, TiG reformulates RL-based decision-making as a language modeling task: LLMs generate language-guided policies, which are refined iteratively through online reinforcement learning based on environmental feedback. Our experimental results show that TiG successfully bridges the gap between declarative and procedural knowledge, achieving competitive performance with dramatically lower data and computational demands compared to conventional RL methods. Moreover, TiG provides step-by-step natural language explanations for its decisions, greatly improving transparency and interpretability in complex interactive tasks.