SABR: A Stable Adaptive Bitrate Framework Using Behavior Cloning Pretraining and Reinforcement Learning Fine-Tuning

📄 arXiv: 2509.10486v1 📥 PDF

作者: Pengcheng Luo, Yunyang Zhao, Bowen Zhang, Genke Yang, Boon-Hee Soong, Chau Yuen

分类: cs.NI, cs.AI, cs.LG, cs.MM

发布日期: 2025-08-30


💡 一句话要点

提出SABR框架以解决自适应码率控制的泛化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自适应码率控制 行为克隆 强化学习 视频流媒体 网络鲁棒性

📋 核心要点

  1. 现有的自适应码率控制方法在训练时依赖有限的网络追踪数据,导致在真实网络条件下的泛化能力不足。
  2. 本文提出的SABR框架结合了行为克隆预训练和强化学习微调,以增强模型在多样化网络条件下的适应性。
  3. 实验结果显示,SABR在多个基准测试中表现优异,超越了现有的几种主流ABR方法,提升了学习的稳定性和泛化能力。

📝 摘要(中文)

随着5G的到来,互联网进入了以视频为中心的新时代。自适应码率(ABR)控制被广泛认为是影响用户体验质量(QoE)的关键因素。现有的基于学习的ABR方法大多依赖有限的网络追踪数据进行训练,忽视了真实网络条件的广泛分布特性,导致在分布外(OOD)场景中的泛化能力较差。为了解决这一限制,本文提出了SABR框架,结合行为克隆(BC)预训练与强化学习(RL)微调。同时,我们引入了ABRBench-3G和ABRBench-4G+基准,提供广泛覆盖的训练追踪数据和专门的OOD测试集,以评估对未见网络条件的鲁棒性。实验结果表明,SABR在提出的基准上相比Pensieve、Comyco和NetLLM取得了最佳平均排名,表明其在广泛分布下实现了更稳定的学习,并改善了对未见网络条件的泛化能力。

🔬 方法详解

问题定义:本文旨在解决现有自适应码率控制方法在真实网络环境中泛化能力不足的问题。现有方法通常依赖于有限的网络追踪数据,无法有效应对多样化的网络条件,导致用户体验下降。

核心思路:SABR框架通过结合行为克隆(BC)预训练与强化学习(RL)微调,旨在提高模型对不同网络条件的适应能力。BC预训练阶段利用丰富的历史数据进行初步学习,而RL微调则在实际环境中优化策略,以增强模型的鲁棒性。

技术框架:SABR的整体架构包括两个主要阶段:首先是行为克隆预训练阶段,使用广泛的网络追踪数据进行初步训练;其次是强化学习微调阶段,通过与环境的交互进一步优化模型。该框架还引入了ABRBench-3G和ABRBench-4G+基准,以提供多样化的训练和测试数据。

关键创新:SABR的主要创新在于将行为克隆与强化学习相结合,形成了一种新的训练策略。这种方法不仅提高了模型的学习稳定性,还显著增强了其在未见网络条件下的泛化能力,与传统方法相比具有本质上的区别。

关键设计:在模型设计中,SABR采用了特定的损失函数来平衡BC和RL阶段的学习目标,同时在网络结构上进行了优化,以适应不同的网络环境。具体参数设置和网络架构细节在实验部分进行了详细描述。

📊 实验亮点

在实验中,SABR在ABRBench-3G和ABRBench-4G+基准上表现优异,取得了最佳平均排名,超越了Pensieve、Comyco和NetLLM等现有方法。这表明SABR在广泛分布下实现了更稳定的学习,并显著改善了对未见网络条件的泛化能力。

🎯 应用场景

SABR框架具有广泛的应用潜力,特别是在视频流媒体服务、在线教育和远程会议等领域。通过提高自适应码率控制的鲁棒性,SABR能够显著提升用户在不同网络条件下的观看体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

With the advent of 5G, the internet has entered a new video-centric era. From short-video platforms like TikTok to long-video platforms like Bilibili, online video services are reshaping user consumption habits. Adaptive Bitrate (ABR) control is widely recognized as a critical factor influencing Quality of Experience (QoE). Recent learning-based ABR methods have attracted increasing attention. However, most of them rely on limited network trace sets during training and overlook the wide-distribution characteristics of real-world network conditions, resulting in poor generalization in out-of-distribution (OOD) scenarios. To address this limitation, we propose SABR, a training framework that combines behavior cloning (BC) pretraining with reinforcement learning (RL) fine-tuning. We also introduce benchmarks, ABRBench-3G and ABRBench-4G+, which provide wide-coverage training traces and dedicated OOD test sets for assessing robustness to unseen network conditions. Experimental results demonstrate that SABR achieves the best average rank compared with Pensieve, Comyco, and NetLLM across the proposed benchmarks. These results indicate that SABR enables more stable learning across wide distributions and improves generalization to unseen network conditions.