Orchestrating Multimodal DNN Workloads in Wireless Neural Processing
作者: Sai Xu, Kai-Kit Wong, Yanan Du, Hyundong Shin
分类: eess.SP, cs.LG
发布日期: 2026-03-02
💡 一句话要点
提出O-WiN框架,通过通信-计算流水线加速无线神经处理中的多模态DNN推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无线神经处理 多模态DNN 边缘推理 通信计算协同 流水线并行
📋 核心要点
- 现有边缘推理方法缺乏无线传输和加速器级DNN调度的协同优化,导致端到端推理延迟较高。
- 论文提出O-WiN框架,通过模拟优化和运行时执行两个阶段,编排WNP中的DNN工作负载,实现通信和计算的协同。
- 提出的PACS算法通过交错调度通信和计算,利用流水线并行掩盖无线延迟,在高模态异构性下显著优于顺序调度算法RTFS。
📝 摘要(中文)
本文研究了无线神经处理(WNP)中的多模态DNN工作负载编排,WNP是一种将无线传输和多核加速器执行集成到统一端到端流水线中的范例。边缘推理中,无线资源分配和加速器级深度神经网络(DNN)调度尚未以端到端的方式进行协同优化。无线传输和加速器级DNN执行之间缺乏协调,导致效率低下,从而导致更高的端到端推理延迟。为了解决这个问题,首先,我们为多模态DNN执行开发了一个统一的通信-计算模型,并制定了相应的优化问题。其次,我们提出了O-WiN框架,该框架通过两个紧密耦合的阶段在WNP中编排DNN工作负载:基于仿真的优化和运行时执行。第三,我们开发了两种算法,RTFS和PACS。RTFS顺序地调度通信和计算,而PACS交错调度它们,通过重叠无线数据传输和加速器级DNN执行来实现流水线并行。仿真结果表明,PACS在高模态异构性下明显优于RTFS,因为它通过通信-计算重叠更好地掩盖了无线延迟,从而突出了通信-计算流水线在加速WNP中多模态DNN执行方面的有效性。
🔬 方法详解
问题定义:论文旨在解决无线神经处理(WNP)中,多模态DNN工作负载在无线资源分配和加速器调度上的协同优化问题。现有方法通常独立处理无线传输和加速器执行,导致通信和计算之间缺乏有效的重叠,从而增加了端到端推理延迟,尤其是在多模态数据异构性较高的情况下。
核心思路:论文的核心思路是通过构建统一的通信-计算模型,将无线传输和加速器执行视为一个整体进行优化。通过模拟不同调度策略的性能,并结合运行时执行,实现通信和计算的流水线并行,从而最大限度地掩盖无线传输带来的延迟。
技术框架:O-WiN框架包含两个主要阶段:基于仿真的优化和运行时执行。在基于仿真的优化阶段,框架利用统一的通信-计算模型,对不同的调度策略(如RTFS和PACS)进行性能评估,选择最优的调度方案。在运行时执行阶段,框架根据仿真结果,动态地调度无线资源和加速器执行,实现端到端的优化。
关键创新:论文的关键创新在于提出了PACS算法,该算法通过交错调度通信和计算,实现了通信-计算的流水线并行。与传统的顺序调度算法RTFS相比,PACS能够更好地利用加速器的计算能力,在无线传输数据时同时进行DNN计算,从而显著降低了端到端推理延迟。
关键设计:论文设计了统一的通信-计算模型,该模型能够准确地描述多模态DNN在无线传输和加速器执行过程中的资源消耗和延迟。此外,PACS算法的关键在于确定合适的通信和计算任务的交错比例,以最大化流水线并行的效率。具体的参数设置和优化策略在论文中未详细说明,属于未知细节。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,在高模态异构性下,PACS算法显著优于RTFS算法。具体而言,PACS通过更好地掩盖无线延迟,实现了更低的端到端推理延迟,验证了通信-计算流水线在加速WNP中多模态DNN执行方面的有效性。具体的性能提升幅度未在摘要中给出,属于未知细节。
🎯 应用场景
该研究成果可应用于各种边缘计算场景,例如自动驾驶、智能监控、增强现实等。通过优化无线资源分配和加速器调度,可以显著降低多模态DNN推理的延迟,提高用户体验,并为实时应用提供更可靠的支持。未来的研究可以进一步探索更复杂的DNN架构和无线环境下的优化策略。
📄 摘要(原文)
In edge inference, wireless resource allocation and accelerator-level deep neural network (DNN) scheduling have yet to be co-optimized in an end-to-end manner. The lack of coordination between wireless transmission and accelerator-level DNN execution prevents efficient overlap, leading to higher end-to-end inference latency. To address this issue, this paper investigates multimodal DNN workload orchestration in wireless neural processing (WNP), a paradigm that integrates wireless transmission and multi-core accelerator execution into a unified end-to-end pipeline. First, we develop a unified communication-computation model for multimodal DNN execution and formulate the corresponding optimization problem. Second, we propose O-WiN, a framework that orchestrates DNN workloads in WNP through two tightly coupled stages: simulation-based optimization and runtime execution. Third, we develop two algorithms, RTFS and PACS. RTFS schedules communication and computation sequentially, whereas PACS interleaves them to enable pipeline parallelism by overlapping wireless data transfer with accelerator-level DNN execution. Simulation results demonstrate that PACS significantly outperforms RTFS under high modality heterogeneity by better masking wireless latency through communication-computation overlap, thereby highlighting the effectiveness of communication-computation pipelining in accelerating multimodal DNN execution in WNP.