Pixels to Play: A Foundation Model for 3D Gameplay

作者: Yuguang Yue, Chris Green, Samuel Hunt, Irakli Salia, Wenzhe Shi, Jonathan J Hunt

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-08-19

期刊: Conference on Games 2025 (Short paper)

💡 一句话要点

提出Pixels2Play-0.1以解决3D游戏智能体行为生成问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D游戏 行为克隆 逆动力学 解码器变换器 智能体学习

📋 核心要点

现有方法在3D游戏中缺乏通用性，难以适应不同游戏的特定需求。
论文提出的Pixels2Play-0.1模型通过行为克隆和逆动力学模型，能够在多种3D游戏中实现人类般的行为。
实验结果显示，P2P0.1在Roblox和经典MS-DOS游戏中表现出色，展示了其在复杂动作空间中的能力。

📝 摘要（中文）

我们介绍了Pixels2Play-0.1（P2P0.1），这是一个基础模型，能够以人类可识别的行为学习玩多种3D视频游戏。该模型的设计旨在满足新兴的消费者和开发者需求，如AI队友、可控NPC、个性化直播者和辅助测试者。P2P0.1依赖于玩家可用的像素流，能够在最小化游戏特定工程的情况下推广到新游戏。模型通过行为克隆进行端到端训练，结合了来自人类游戏玩法的标记演示和未标记的公共视频，并通过逆动力学模型推断动作。采用解码器-only的变换器，具备自回归动作输出，能够处理大规模动作空间，同时在单个消费级GPU上保持低延迟。我们报告了在简单的Roblox和经典的MS-DOS游戏中表现出色的定性结果，并进行了未标记数据的消融实验，概述了达到专家级文本条件控制所需的扩展和评估步骤。

🔬 方法详解

问题定义：本论文旨在解决现有3D游戏智能体在不同游戏间缺乏通用性的问题。现有方法通常需要大量的游戏特定工程，限制了其适用范围。

核心思路：论文提出的Pixels2Play-0.1模型通过行为克隆技术，结合人类游戏玩法的标记演示和未标记视频，能够在多种3D游戏中实现人类般的行为，减少游戏特定的工程需求。

技术框架：P2P0.1的整体架构包括数据收集、行为克隆训练和逆动力学模型推断。数据收集阶段获取标记和未标记的视频，训练阶段通过解码器-only变换器进行动作输出，最后通过逆动力学模型推断动作。

关键创新：该模型的主要创新在于其端到端的训练方式和解码器-only变换器的设计，使其能够在大规模动作空间中保持低延迟，并有效处理多样化的游戏场景。

关键设计：模型采用了自回归的动作输出方式，确保在复杂动作空间中能够快速响应，同时在训练过程中使用了多种损失函数以优化行为克隆的效果。

📊 实验亮点

实验结果表明，Pixels2Play-0.1在简单的Roblox和经典的MS-DOS游戏中表现出色，展示了其在复杂动作空间中的能力。通过消融实验，验证了未标记数据对模型性能的提升，进一步证明了该模型的有效性和通用性。

🎯 应用场景

该研究的潜在应用领域包括游戏开发中的AI队友、可控NPC、个性化直播者等，能够显著提升游戏的互动性和玩家体验。未来，随着模型的进一步优化和扩展，可能会在更多类型的3D游戏中实现更高水平的智能行为。

📄 摘要（原文）

We introduce Pixels2Play-0.1 (P2P0.1), a foundation model that learns to play a wide range of 3D video games with recognizable human-like behavior. Motivated by emerging consumer and developer use cases - AI teammates, controllable NPCs, personalized live-streamers, assistive testers - we argue that an agent must rely on the same pixel stream available to players and generalize to new titles with minimal game-specific engineering. P2P0.1 is trained end-to-end with behavior cloning: labeled demonstrations collected from instrumented human game-play are complemented by unlabeled public videos, to which we impute actions via an inverse-dynamics model. A decoder-only transformer with auto-regressive action output handles the large action space while remaining latency-friendly on a single consumer GPU. We report qualitative results showing competent play across simple Roblox and classic MS-DOS titles, ablations on unlabeled data, and outline the scaling and evaluation steps required to reach expert-level, text-conditioned control.

Pixels to Play: A Foundation Model for 3D Gameplay

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册