Enhancing User Throughput in Multi-panel mmWave Radio Access Networks for Beam-based MU-MIMO Using a DRL Method

📄 arXiv: 2603.02745v1 📥 PDF

作者: Ramin Hashemi, Vismika Ranasinghe, Teemu Veijalainen, Petteri Kela, Risto Wichman

分类: cs.IT, cs.AI, cs.LG

发布日期: 2026-03-03

备注: Accepted to the IEEE International Conference on Communications (ICC) 2026


💡 一句话要点

提出基于DRL的波束管理方法,提升毫米波MU-MIMO系统用户吞吐量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 毫米波通信 MU-MIMO 深度强化学习 波束管理 自适应波束赋形

📋 核心要点

  1. 毫米波MU-MIMO系统面临动态波束选择和管理的复杂性挑战,传统方法难以有效优化用户吞吐量和降低延迟。
  2. 论文提出基于DRL的自适应波束管理策略,通过MDP建模优化波束选择,并结合空间域特征动态调整波束赋形决策。
  3. 实验结果表明,与传统方法相比,该方法能够显著提升用户吞吐量(高达16%)并降低端到端延迟(3-7倍)。

📝 摘要(中文)

本文提出了一种基于深度强化学习(DRL)的方法,用于增强多面板毫米波无线接入网络中基于波束的MU-MIMO的用户吞吐量。针对动态波束选择和管理的高复杂度问题,该方法利用自适应波束管理策略,将通信代理与其环境的交互建模为马尔可夫决策过程(MDP),并基于实时观测优化波束选择。该框架通过结合不同天线面板中波束之间的互相关性、测量的参考信号接收功率(RSRP)以及波束使用统计信息,来动态调整波束赋形决策,从而提高频谱效率并降低端到端延迟。数值结果表明,与基线(传统波束管理)相比,吞吐量提高了高达16%,延迟降低了3-7倍。

🔬 方法详解

问题定义:论文旨在解决毫米波多面板无线接入网络中,基于波束的MU-MIMO系统中的用户吞吐量优化问题。现有波束管理方法在动态选择和管理波束时面临高复杂度,难以充分利用空间域信息,导致频谱效率受限,端到端延迟较高。

核心思路:论文的核心思路是将波束管理问题建模为马尔可夫决策过程(MDP),利用深度强化学习(DRL)训练智能体,使其能够根据实时环境观测(包括波束互相关性、RSRP和波束使用统计)动态调整波束赋形决策。通过学习最优策略,智能体能够选择合适的波束组合,从而最大化用户吞吐量并最小化延迟。

技术框架:整体框架包含以下主要模块:1) 环境建模:将毫米波多面板无线接入网络建模为MDP,定义状态空间、动作空间和奖励函数。状态空间包括波束互相关性、RSRP和波束使用统计等信息;动作空间为波束选择;奖励函数与用户吞吐量和延迟相关。2) DRL智能体:采用深度神经网络作为函数逼近器,学习最优策略。3) 波束管理:DRL智能体根据当前状态选择波束,并执行波束赋形。4) 性能评估:评估用户吞吐量和延迟等性能指标。

关键创新:论文的关键创新在于:1) 将波束管理问题建模为MDP,并利用DRL进行求解。2) 结合空间域特征(波束互相关性)和网络状态信息(RSRP、波束使用统计)进行波束选择。3) 提出了一种自适应波束管理策略,能够根据实时环境动态调整波束赋形决策。与现有方法相比,该方法能够更有效地利用空间域信息,提高频谱效率,降低延迟。

关键设计:论文中,状态空间包含了不同天线面板中波束之间的互相关性,这有助于智能体理解波束之间的干扰关系。奖励函数的设计综合考虑了用户吞吐量和延迟,鼓励智能体选择能够最大化吞吐量并最小化延迟的波束组合。具体的网络结构和超参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与传统的波束管理方法相比,该方法能够显著提升用户吞吐量,最高可达16%,并且能够有效降低端到端延迟,降低幅度为3-7倍。这些结果验证了该方法在提升毫米波MU-MIMO系统性能方面的有效性。

🎯 应用场景

该研究成果可应用于5G/6G毫米波通信系统,尤其是在高密度用户场景下,能够提升网络容量和用户体验。通过智能波束管理,可以有效应对毫米波通信中信号衰减严重、易受阻挡等问题,为虚拟现实、增强现实、高清视频等高带宽应用提供更好的支持。未来,该方法有望扩展到其他无线通信场景,例如大规模MIMO和异构网络。

📄 摘要(原文)

Millimeter-wave (mmWave) communication systems, particularly those leveraging multi-user multiple-input and multiple-output (MU-MIMO) with hybrid beamforming, face challenges in optimizing user throughput and minimizing latency due to the high complexity of dynamic beam selection and management. This paper introduces a deep reinforcement learning (DRL) approach for enhancing user throughput in multi-panel mmWave radio access networks in a practical network setup. Our DRL-based formulation utilizes an adaptive beam management strategy that models the interaction between the communication agent and its environment as a Markov decision process (MDP), optimizing beam selection based on real-time observations. The proposed framework exploits spatial domain (SD) characteristics by incorporating the cross-correlation between the beams in different antenna panels, the measured reference signal received power (RSRP), and the beam usage statistics to dynamically adjust beamforming decisions. As a result, the spectral efficiency is improved and end-to-end latency is reduced. The numerical results demonstrate an increase in throughput of up to 16% and a reduction in latency by factors 3-7x compared to baseline (legacy beam management).