Enhancing User Throughput in Multi-panel mmWave Radio Access Networks for Beam-based MU-MIMO Using a DRL Method

作者: Ramin Hashemi, Vismika Ranasinghe, Teemu Veijalainen, Petteri Kela, Risto Wichman

分类: cs.IT, cs.AI, cs.LG

发布日期: 2026-03-03

备注: Accepted to the IEEE International Conference on Communications (ICC) 2026

💡 一句话要点

提出基于DRL的波束管理方法，提升毫米波MU-MIMO系统用户吞吐量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 毫米波通信 MU-MIMO 深度强化学习 波束管理 自适应波束赋形

📋 核心要点

毫米波MU-MIMO系统面临动态波束选择和管理的复杂性挑战，传统方法难以有效优化用户吞吐量和降低延迟。
论文提出基于DRL的自适应波束管理策略，通过MDP建模优化波束选择，并结合空间域特征动态调整波束赋形决策。
实验结果表明，与传统方法相比，该方法能够显著提升用户吞吐量（高达16%）并降低端到端延迟（3-7倍）。

📝 摘要（中文）

本文提出了一种基于深度强化学习（DRL）的方法，用于增强多面板毫米波无线接入网络中基于波束的MU-MIMO的用户吞吐量。针对动态波束选择和管理的高复杂度问题，该方法利用自适应波束管理策略，将通信代理与其环境的交互建模为马尔可夫决策过程（MDP），并基于实时观测优化波束选择。该框架通过结合不同天线面板中波束之间的互相关性、测量的参考信号接收功率（RSRP）以及波束使用统计信息，来动态调整波束赋形决策，从而提高频谱效率并降低端到端延迟。数值结果表明，与基线（传统波束管理）相比，吞吐量提高了高达16%，延迟降低了3-7倍。

🔬 方法详解

问题定义：论文旨在解决毫米波多面板无线接入网络中，基于波束的MU-MIMO系统中的用户吞吐量优化问题。现有波束管理方法在动态选择和管理波束时面临高复杂度，难以充分利用空间域信息，导致频谱效率受限，端到端延迟较高。

核心思路：论文的核心思路是将波束管理问题建模为马尔可夫决策过程（MDP），利用深度强化学习（DRL）训练智能体，使其能够根据实时环境观测（包括波束互相关性、RSRP和波束使用统计）动态调整波束赋形决策。通过学习最优策略，智能体能够选择合适的波束组合，从而最大化用户吞吐量并最小化延迟。

技术框架：整体框架包含以下主要模块：1) 环境建模：将毫米波多面板无线接入网络建模为MDP，定义状态空间、动作空间和奖励函数。状态空间包括波束互相关性、RSRP和波束使用统计等信息；动作空间为波束选择；奖励函数与用户吞吐量和延迟相关。2) DRL智能体：采用深度神经网络作为函数逼近器，学习最优策略。3) 波束管理：DRL智能体根据当前状态选择波束，并执行波束赋形。4) 性能评估：评估用户吞吐量和延迟等性能指标。

关键创新：论文的关键创新在于：1) 将波束管理问题建模为MDP，并利用DRL进行求解。2) 结合空间域特征（波束互相关性）和网络状态信息（RSRP、波束使用统计）进行波束选择。3) 提出了一种自适应波束管理策略，能够根据实时环境动态调整波束赋形决策。与现有方法相比，该方法能够更有效地利用空间域信息，提高频谱效率，降低延迟。

关键设计：论文中，状态空间包含了不同天线面板中波束之间的互相关性，这有助于智能体理解波束之间的干扰关系。奖励函数的设计综合考虑了用户吞吐量和延迟，鼓励智能体选择能够最大化吞吐量并最小化延迟的波束组合。具体的网络结构和超参数设置在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与传统的波束管理方法相比，该方法能够显著提升用户吞吐量，最高可达16%，并且能够有效降低端到端延迟，降低幅度为3-7倍。这些结果验证了该方法在提升毫米波MU-MIMO系统性能方面的有效性。

🎯 应用场景

该研究成果可应用于5G/6G毫米波通信系统，尤其是在高密度用户场景下，能够提升网络容量和用户体验。通过智能波束管理，可以有效应对毫米波通信中信号衰减严重、易受阻挡等问题，为虚拟现实、增强现实、高清视频等高带宽应用提供更好的支持。未来，该方法有望扩展到其他无线通信场景，例如大规模MIMO和异构网络。

📄 摘要（原文）

Millimeter-wave (mmWave) communication systems, particularly those leveraging multi-user multiple-input and multiple-output (MU-MIMO) with hybrid beamforming, face challenges in optimizing user throughput and minimizing latency due to the high complexity of dynamic beam selection and management. This paper introduces a deep reinforcement learning (DRL) approach for enhancing user throughput in multi-panel mmWave radio access networks in a practical network setup. Our DRL-based formulation utilizes an adaptive beam management strategy that models the interaction between the communication agent and its environment as a Markov decision process (MDP), optimizing beam selection based on real-time observations. The proposed framework exploits spatial domain (SD) characteristics by incorporating the cross-correlation between the beams in different antenna panels, the measured reference signal received power (RSRP), and the beam usage statistics to dynamically adjust beamforming decisions. As a result, the spectral efficiency is improved and end-to-end latency is reduced. The numerical results demonstrate an increase in throughput of up to 16% and a reduction in latency by factors 3-7x compared to baseline (legacy beam management).

Enhancing User Throughput in Multi-panel mmWave Radio Access Networks for Beam-based MU-MIMO Using a DRL Method

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理