Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling
作者: Xianzhi Zhang, Yue Xu, Yinlin Zhu, Di Wu, Yipeng Zhou, Miao Hu, Guocong Quan
分类: cs.LG
发布日期: 2026-03-06
💡 一句话要点
提出M-CMAB框架,解决在线多约束多模态推理调度问题,提升资源利用率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 在线调度 多臂老虎机 资源分配 约束优化
📋 核心要点
- 现有MLLM在线任务调度方法难以应对模态组成和推理难度变化,以及系统抖动和网络变化带来的成本波动。
- M-CMAB框架通过多适配器增强,利用预测器提取任务表示,约束器维护长期约束,调度器平衡探索和利用。
- 实验表明,M-CMAB在异构后端环境下优于现有基线,奖励提升高达14.18%,并接近oracle辅助的性能上限。
📝 摘要(中文)
本文提出了一种名为M-CMAB(多模态多约束上下文多臂老虎机)的框架,用于在线多模态大语言模型(MLLM)推理调度。该框架旨在解决异构预算下MLLM任务调度中的两个核心挑战:一是如何获得语义忠实且与调度相关的多模态任务表示;二是如何在不可逆的多维预算下进行低开销的在线决策。M-CMAB包含三个组件:(i) 一个CLS-attentive的冻结骨干预测器,用于提取紧凑的任务表示并仅更新轻量级适配器以进行特定动作的估计;(ii) 一个原始-对偶约束器,用于维护在线拉格朗日乘子,通过每轮目标来强制执行长期约束;(iii) 一个两阶段调度器,用于在不可逆预算下平衡探索和利用。论文建立了多维背包约束下的遗憾保证。在具有异构后端的综合多模态基准测试中,M-CMAB始终优于最先进的基线,在各种预算方案下实现了高达14.18%的奖励提升,并紧密跟踪了oracle辅助的上限。
🔬 方法详解
问题定义:论文旨在解决在线多模态大语言模型(MLLM)推理调度问题,特别是在异构计算资源和预算约束下,如何高效地将不同的MLLM任务分配到不同的后端执行。现有方法的痛点在于无法同时兼顾任务的多模态特性、推理难度以及后端的时间变化成本,导致资源利用率低,任务完成质量不高。
核心思路:论文的核心思路是将MLLM推理调度问题建模为一个多约束上下文多臂老虎机(CMAB)问题。通过学习任务的表示,并利用在线学习算法来平衡探索(尝试不同的调度策略)和利用(选择当前最优的调度策略),从而在满足预算约束的前提下最大化奖励(例如,任务完成质量)。关键在于设计有效的任务表示方法和在线学习算法,以适应MLLM任务的复杂性和异构计算环境。
技术框架:M-CMAB框架包含三个主要模块: 1. 预测器(Predictor):使用一个CLS-attentive的冻结骨干网络提取任务的紧凑表示,并通过轻量级适配器进行特定动作的估计。冻结骨干网络可以减少训练参数,提高训练效率。 2. 约束器(Constrainer):使用原始-对偶方法维护在线拉格朗日乘子,以强制执行长期预算约束。拉格朗日乘子用于将约束条件融入到优化目标中。 3. 调度器(Scheduler):采用两阶段调度策略,在不可逆预算下平衡探索和利用。第一阶段进行探索,尝试不同的调度策略;第二阶段进行利用,选择当前最优的调度策略。
关键创新:论文的关键创新在于将多适配器学习与上下文多臂老虎机相结合,用于解决在线多模态推理调度问题。具体来说,通过多适配器学习,可以有效地提取任务的表示,并适应不同的调度动作。同时,利用上下文多臂老虎机算法,可以在线学习最优的调度策略,并满足预算约束。这种结合使得M-CMAB框架能够有效地应对MLLM任务的复杂性和异构计算环境。
关键设计: * CLS-attentive预测器:使用预训练的MLLM的CLS token作为任务的全局表示,并通过注意力机制关注不同模态的贡献。 * 适配器:使用轻量级的适配器网络,针对不同的调度动作进行微调,以提高预测精度。 * 原始-对偶约束器:使用在线梯度下降算法更新拉格朗日乘子,以满足长期预算约束。 * 两阶段调度器:第一阶段采用ε-greedy策略进行探索,第二阶段采用UCB(Upper Confidence Bound)策略进行利用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,M-CMAB在多模态基准测试中始终优于最先进的基线方法。在各种预算方案下,M-CMAB实现了高达14.18%的奖励提升,并且性能紧密跟踪了oracle辅助的上限。这些结果验证了M-CMAB框架的有效性和优越性。
🎯 应用场景
该研究成果可应用于各种需要在线多模态推理调度的场景,例如智能客服、自动驾驶、医疗诊断等。通过优化资源分配,可以提高系统的响应速度和任务完成质量,降低运营成本。未来,该方法可以进一步扩展到更复杂的任务调度场景,例如边缘计算和联邦学习。
📄 摘要(原文)
Multi-modal large language model (MLLM) inference scheduling enables strong response quality under practical and heterogeneous budgets, beyond what a homogeneous single-backend setting can offer. Yet online MLLM task scheduling is nontrivial, as requests vary sharply in modality composition and latent reasoning difficulty, while execution backends incur distinct, time-varying costs due to system jitter and network variation. These coupled uncertainties pose two core challenges: deriving semantically faithful yet scheduling-relevant multi-modal task representations, and making low-overhead online decisions over irreversible multi-dimensional budgets. Accordingly, we propose \emph{M-CMAB} (\underline{M}ulti-modal \underline{M}ulti-constraint \underline{C}ontextual \underline{M}ulti-\underline{A}rmed \underline{B}andit), a multi-adapter-enhanced MLLM inference scheduling framework with three components: (i) a CLS-attentive, frozen-backbone \emph{Predictor} that extracts compact task representations and updates only lightweight adapters for action-specific estimation; (ii) a primal-dual \emph{Constrainer} that maintains online Lagrange multipliers to enforce long-horizon constraints via per-round objectives; and (iii) a two-phase \emph{Scheduler} that balances exploration and exploitation under irreversible budgets. We establish a regret guarantee under multi-dimensional knapsack constraints. On a composite multimodal benchmark with heterogeneous backends, \emph{M-CMAB} consistently outperforms state-of-the-art baselines across budget regimes, achieving up to 14.18% higher reward and closely tracking an oracle-aided upper bound. Codes are available at https://anonymous.4open.science/r/M2CMAB/.