Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom
作者: Hugo Huang
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-11-12
备注: Master's Thesis at the University of Edinburgh (2024)
💡 一句话要点
提出基于语义分割的强化学习方法,降低3D环境内存消耗并提升智能体性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 语义分割 3D环境 内存优化 ViZDoom 智能体 部分可观察马尔可夫决策过程
📋 核心要点
- 3D环境强化学习面临高维输入带来的高内存消耗和部分可观察性挑战。
- 论文提出SS-only和RGB+SS两种输入表示,利用语义分割降低内存消耗并增强智能体性能。
- 实验表明SS-only显著降低内存消耗,RGB+SS提升智能体性能,并探索了热图可视化方法。
📝 摘要(中文)
在具有高维感官输入的3D环境中进行强化学习(RL)面临两个主要挑战:(1)稳定学习所需的内存缓冲区导致的高内存消耗,以及(2)在部分可观察马尔可夫决策过程(POMDP)中学习的复杂性。本项目通过提出两种新的输入表示:SS-only和RGB+SS来解决这些挑战,这两种方法都利用了RGB彩色图像上的语义分割。实验在ViZDoom的死亡竞赛中进行,利用完美的分割结果进行受控评估。结果表明,SS-only能够将内存缓冲区的内存消耗降低至少66.6%,当应用具有最小开销的可向量化无损压缩技术(如行程编码)时,最多可降低98.6%。同时,RGB+SS通过提供的额外语义信息显著提高了RL智能体的性能。此外,我们探索了基于密度的热图作为可视化RL智能体移动模式并评估其数据收集适用性的工具。与先前方法的一个简要比较突出了我们的方法如何克服在ViZDoom等3D环境中应用语义分割的常见陷阱。
🔬 方法详解
问题定义:现有3D环境强化学习方法,特别是基于图像输入的,需要大量的内存来存储经验回放缓冲区,这限制了可以训练的模型大小和训练时间。此外,部分可观察性使得智能体难以学习长期依赖关系。
核心思路:利用语义分割提取图像中的关键信息,减少输入维度,从而降低内存消耗。同时,语义信息可以帮助智能体更好地理解环境,克服部分可观察性带来的挑战。RGB+SS结合原始图像信息和语义信息,期望达到更好的性能。
技术框架:该方法主要包含以下几个阶段:1. 使用语义分割模型对RGB图像进行分割,得到语义分割结果。2. 将语义分割结果(SS-only)或RGB图像与语义分割结果(RGB+SS)作为强化学习智能体的输入。3. 使用强化学习算法(具体算法未知)训练智能体。4. 使用密度热图可视化智能体的行为模式。
关键创新:该方法的核心创新在于将语义分割引入到3D环境的强化学习中,并提出了两种新的输入表示:SS-only和RGB+SS。SS-only通过仅使用语义分割结果作为输入,显著降低了内存消耗。RGB+SS则结合了原始图像信息和语义信息,提高了智能体的性能。
关键设计:论文使用了完美的语义分割结果,这是一种受控的评估方式,可以排除语义分割模型本身带来的误差。论文在ViZDoom的死亡竞赛环境中进行了实验,这是一个具有挑战性的3D环境。论文还探索了使用密度热图来可视化智能体的行为模式,这可以帮助理解智能体的学习过程。
📊 实验亮点
实验结果表明,SS-only方法能够将内存缓冲区的内存消耗降低至少66.6%,在应用行程编码等无损压缩技术后,最多可降低98.6%。RGB+SS方法通过提供额外的语义信息,显著提高了RL智能体的性能。这些结果表明,基于语义分割的强化学习方法在3D环境中具有显著的优势。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域。通过降低内存消耗,可以训练更大规模的强化学习模型,从而提高智能体的性能。语义分割的应用可以使智能体更好地理解环境,从而更好地完成任务。该方法在资源受限的平台上具有潜在的应用价值。
📄 摘要(原文)
Reinforcement learning (RL) in 3D environments with high-dimensional sensory input poses two major challenges: (1) the high memory consumption induced by memory buffers required to stabilise learning, and (2) the complexity of learning in partially observable Markov Decision Processes (POMDPs). This project addresses these challenges by proposing two novel input representations: SS-only and RGB+SS, both employing semantic segmentation on RGB colour images. Experiments were conducted in deathmatches of ViZDoom, utilizing perfect segmentation results for controlled evaluation. Our results showed that SS-only was able to reduce the memory consumption of memory buffers by at least 66.6%, and up to 98.6% when a vectorisable lossless compression technique with minimal overhead such as run-length encoding is applied. Meanwhile, RGB+SS significantly enhances RL agents' performance with the additional semantic information provided. Furthermore, we explored density-based heatmapping as a tool to visualise RL agents' movement patterns and evaluate their suitability for data collection. A brief comparison with a previous approach highlights how our method overcame common pitfalls in applying semantic segmentation in 3D environments like ViZDoom.