Narrative-to-Scene Generation: An LLM-Driven Pipeline for 2D Game Environments

作者: Yi-Chun Chen, Arnav Jhala

分类: cs.GR, cs.AI, cs.CL, cs.MM

发布日期: 2025-08-31

💡 一句话要点

提出轻量级管道将叙事文本转化为2D游戏场景

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 叙事生成 2D游戏 程序内容生成 空间谓词 细胞自动机 多智能体协调 语义嵌入

📋 核心要点

现有方法在将叙事文本转化为可玩游戏场景方面存在挑战，缺乏有效的空间和时间结构映射。
论文提出了一种轻量级管道，通过提取空间谓词和生成分层地形，将叙事文本转化为2D游戏场景。
在十个故事的实验中，系统在瓷砖-对象匹配和空间约束满足方面表现出色，展示了其可扩展性和实用性。

📝 摘要（中文）

近年来，大型语言模型（LLMs）的进步使得故事生成变得引人注目，但将叙事文本与可玩视觉环境连接仍然是程序内容生成（PCG）中的一个开放挑战。本文提出了一种轻量级管道，将短叙事提示转化为一系列2D瓷砖游戏场景，反映故事的时间结构。系统从LLM生成的叙事中识别三个关键时间框架，提取以“对象-关系-对象”三元组形式的空间谓词，并利用GameTileNet数据集中的语义嵌入检索视觉资产。通过细胞自动机生成分层地形，并根据谓词结构的空间规则放置对象。我们在十个不同故事中评估了系统，分析了瓷砖-对象匹配、可供性层对齐和跨帧空间约束满足情况。该原型为叙事驱动的场景生成提供了一种可扩展的方法，并为未来在故事中心PCG中的多帧连续性、符号跟踪和多智能体协调的研究奠定了基础。

🔬 方法详解

问题定义：本文旨在解决将叙事文本有效转化为可玩2D游戏场景的问题。现有方法在空间和时间结构的映射上存在不足，导致生成的场景缺乏连贯性和可玩性。

核心思路：论文的核心思路是利用大型语言模型生成叙事文本，并通过提取空间谓词和时间框架，将其转化为游戏场景。通过这种方式，能够更好地反映故事的结构和内容。

技术框架：整体架构包括三个主要模块：叙事生成模块、空间谓词提取模块和场景生成模块。首先，使用LLM生成叙事文本，然后识别关键时间框架和空间谓词，最后生成游戏场景。

关键创新：最重要的技术创新在于结合了LLM生成的叙事与空间谓词提取，形成了一个轻量级的管道，能够高效地生成符合叙事逻辑的游戏场景。这与传统方法相比，显著提高了生成的连贯性和可玩性。

关键设计：在技术细节上，使用“对象-关系-对象”三元组提取空间谓词，并通过细胞自动机生成分层地形。对象的放置遵循空间规则，确保生成场景的合理性和可玩性。

📊 实验亮点

实验结果表明，系统在瓷砖-对象匹配和空间约束满足方面表现优异，成功生成了符合叙事逻辑的游戏场景。与基线方法相比，系统在可玩性和连贯性上有显著提升，展示了其在程序内容生成中的应用潜力。

🎯 应用场景

该研究的潜在应用领域包括游戏开发、虚拟现实和教育等。通过将叙事文本转化为可玩场景，能够为游戏设计师提供新的创作工具，提升游戏的沉浸感和互动性。此外，未来可能在多智能体协调和符号跟踪等领域产生深远影响。

📄 摘要（原文）

Recent advances in large language models(LLMs) enable compelling story generation, but connecting narrative text to playable visual environments remains an open challenge in procedural content generation(PCG). We present a lightweight pipeline that transforms short narrative prompts into a sequence of 2D tile-based game scenes, reflecting the temporal structure of stories. Given an LLM-generated narrative, our system identifies three key time frames, extracts spatial predicates in the form of "Object-Relation-Object" triples, and retrieves visual assets using affordance-aware semantic embeddings from the GameTileNet dataset. A layered terrain is generated using Cellular Automata, and objects are placed using spatial rules grounded in the predicate structure. We evaluated our system in ten diverse stories, analyzing tile-object matching, affordance-layer alignment, and spatial constraint satisfaction across frames. This prototype offers a scalable approach to narrative-driven scene generation and lays the foundation for future work on multi-frame continuity, symbolic tracking, and multi-agent coordination in story-centered PCG.

Narrative-to-Scene Generation: An LLM-Driven Pipeline for 2D Game Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册