Action Deviation-Aware Inference for Low-Latency Wireless Robots

📄 arXiv: 2510.02851v2 📥 PDF

作者: Jeyoung Park, Yeonsub Lim, Seungeun Oh, Jihong Park, Jinho Choi, Seong-Lyun Kim

分类: cs.RO, cs.DC

发布日期: 2025-10-03 (更新: 2025-11-06)


💡 一句话要点

提出ADAHI,通过动作偏差感知推理降低无线机器人低延迟需求。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无线机器人 低延迟推理 推测解码 动作偏差 分布式机器学习

📋 核心要点

  1. 现有模仿学习策略在无线机器人协同推理中,无法有效并行验证和纠正动作草案,导致延迟较高。
  2. ADAHI通过动作偏差感知,选择性传输和验证草案,降低了不必要的通信和计算开销。
  3. 实验表明,ADAHI显著降低了端到端延迟,同时保持了较高的任务成功率,验证了其有效性。

📝 摘要(中文)

为了支持从自动驾驶到工业机器人操作等对延迟敏感的AI应用,6G设想了分布式机器学习,其中计算资源分布在移动设备、边缘和云端,并通过超可靠低延迟通信(HRLLC)连接。在这种设置下,推测解码可以促进分布式部署模型的协同推理:轻量级的设备端模型在本地生成草案,而功能更强大的远程服务器端目标模型验证和纠正这些草案,与推测采样并行,从而在不影响准确性的前提下降低延迟。然而,与自回归文本生成不同,通常用于具身AI应用的模仿学习策略无法并行验证和纠正多个草案,因为每个生成的动作都依赖于先前动作更新的观察。为此,我们提出了动作偏差感知混合推理(ADAHI),其中草案基于动作偏差进行选择性传输和验证,动作偏差与目标模型拒绝动作的概率密切相关。通过仅在必要时调用服务器操作,可以减少通信和计算开销,同时保留推测采样带来的准确性增益。在我们测试平台上的实验表明,ADAHI减少了约40%的传输和服务器操作,降低了39.2%的端到端延迟,并实现了高达97.2%的任务成功率,该基线对每个草案嵌入向量调用推测采样。

🔬 方法详解

问题定义:论文旨在解决无线机器人应用中,由于通信延迟和计算资源限制,难以实现低延迟、高精度的行为克隆策略推理的问题。传统的推测解码方法在处理具身智能任务时,由于动作之间的依赖性,无法有效并行验证和纠正多个动作草案,导致延迟增加。现有方法没有充分利用动作之间的相关性,导致不必要的通信和计算开销。

核心思路:论文的核心思路是利用动作偏差(Action Deviation)作为指标,来判断设备端生成的动作草案是否需要服务器端的验证和纠正。动作偏差越大,说明设备端生成的动作与目标动作的差异越大,被服务器端拒绝的可能性越高,因此需要进行验证。通过这种选择性的验证机制,可以减少不必要的通信和计算开销,从而降低整体延迟。

技术框架:ADAHI包含以下主要模块:1) 设备端轻量级模型:负责生成动作草案。2) 动作偏差计算模块:计算设备端生成的动作与历史动作之间的偏差。3) 传输决策模块:根据动作偏差决定是否将动作草案传输到服务器端。4) 服务器端目标模型:负责验证和纠正设备端生成的动作草案。5) 动作执行模块:执行最终的动作。整体流程是:设备端生成动作草案 -> 计算动作偏差 -> 根据偏差决定是否传输 -> 服务器端验证和纠正(如果传输) -> 执行最终动作。

关键创新:最重要的技术创新点是提出了动作偏差感知的推理机制。与传统的推测解码方法不同,ADAHI不是对所有动作草案都进行验证,而是根据动作偏差进行选择性验证。这种方法充分利用了动作之间的相关性,减少了不必要的通信和计算开销。

关键设计:动作偏差的计算方式是关键设计之一。论文中可能采用了某种距离度量或相似度计算方法来衡量动作之间的偏差。具体的损失函数和网络结构细节未知,但可以推测设备端模型是一个轻量级的神经网络,服务器端模型是一个更复杂的神经网络。传输决策模块可能使用一个阈值来判断动作偏差是否足够大,需要进行服务器端验证。

📊 实验亮点

实验结果表明,ADAHI相比于对每个草案嵌入向量都进行推测采样的基线方法,减少了约40%的传输和服务器操作,降低了39.2%的端到端延迟,并实现了高达97.2%的任务成功率。这些数据表明,ADAHI在降低延迟的同时,能够保持较高的任务性能。

🎯 应用场景

该研究成果可应用于各种对延迟敏感的无线机器人应用,例如:自动驾驶、工业机器人操作、远程医疗手术等。通过降低推理延迟,可以提高机器人的响应速度和操作精度,从而提升用户体验和工作效率。未来,该技术有望推动无线机器人技术在更多领域的应用。

📄 摘要(原文)

To support latency-sensitive AI applications ranging from autonomous driving to industrial robot manipulation, 6G envisions distributed ML with computational resources in mobile, edge, and cloud connected over hyper-reliable low-latency communication (HRLLC). In this setting, speculative decoding can facilitate collaborative inference of models distributively deployed: a lightweight on-device model locally generates drafts while a more capable remote target model on a server verifies and corrects them in parallel with speculative sampling, thus resulting in lower latency without compromising accuracy. However, unlike autoregressive text generation, behavior cloning policies, typically used for embodied AI applications, cannot parallelize verification and correction for multiple drafts as each generated action depends on observation updated by a previous action. To this end, we propose Action Deviation-Aware Hybrid Inference (ADAHI), wherein drafts are selectively transmitted and verified based on action deviation, which has a strong correlation with action's rejection probability by the target model. By invoking server operation only when necessary, communication and computational overhead can be reduced while accuracy gain from speculative sampling is preserved. Experiments on our testbed show that ADAHI reduces transmission and server operations by approximately 40%, lowers end-to-end latency by 39.2%, and attains up to 97.2% of the task-success rate of baseline that invokes speculative sampling for every draft embedding vector.