MobiAct: Efficient MAV Action Recognition Using MobileNetV4 with Contrastive Learning and Knowledge Distillation

作者: Zhang Nengbo, Ho Hann Woei

分类: cs.CV

发布日期: 2025-10-22

💡 一句话要点

提出MobiAct：一种基于MobileNetV4、对比学习和知识蒸馏的高效MAV动作识别框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 微型飞行器 动作识别 MobileNetV4 知识蒸馏 对比学习 轻量级模型 无人机集群

📋 核心要点

现有MAV动作识别方法依赖于计算密集型模型，难以在资源受限的MAV平台上实现实时感知和协同。
MobiAct采用MobileNetV4作为骨干网络，并结合阶段式正交知识蒸馏和无参数注意力机制，提升模型效率和精度。
实验结果表明，MobiAct在保持高识别精度的同时，显著降低了能耗和计算量，并实现了更快的动作解码速度。

📝 摘要（中文）

本文提出了一种轻量级的微型飞行器(MAV)动作识别框架MobiAct，旨在以低计算成本实现高精度。MobiAct采用MobileNetV4作为骨干网络，并引入了一种阶段式正交知识蒸馏(SOKD)策略，有效地将MAV运动特征从教师网络(ResNet18)转移到学生网络，从而提高知识转移效率。此外，该架构还集成了一种无参数注意力机制，以提高识别精度，而无需增加模型复杂度。此外，还开发了一种混合损失训练策略，将多个损失目标结合起来，确保训练期间的稳定和鲁棒优化。实验结果表明，所提出的MobiAct实现了低能耗和低计算的MAV动作识别，同时在比较方法中保持了最快的动作解码速度。在所有三个自收集的数据集上，MobiAct实现了92.12%的平均识别精度，同时仅消耗136.16 pJ的能量，并以每秒8.84个动作的速度进行识别。值得注意的是，MobiAct的动作解码速度比领先方法快2倍，且识别精度具有高度可比性，突出了其在MAV动作识别中的卓越效率。

🔬 方法详解

问题定义：现有的微型飞行器（MAV）动作识别方法通常依赖于大型、计算量高的模型，这使得它们不适合资源有限的MAV平台。因此，如何在保持识别精度的前提下，降低计算成本和能耗，是当前MAV动作识别领域面临的关键问题。现有方法的痛点在于精度和效率之间的权衡，难以同时满足实时性和准确性的需求。

核心思路：MobiAct的核心思路是利用轻量级网络结构（MobileNetV4）作为基础，并通过知识蒸馏技术将大型模型的知识迁移到小型模型中，从而在降低计算复杂度的同时，保持较高的识别精度。此外，引入无参数注意力机制进一步提升模型对关键特征的关注能力。

技术框架：MobiAct的整体框架包括以下几个主要模块：1) 数据预处理；2) 特征提取（使用MobileNetV4）；3) 知识蒸馏（使用阶段式正交知识蒸馏SOKD）；4) 注意力机制（无参数注意力）；5) 分类器（例如，全连接层）；6) 混合损失训练。流程是：首先，使用预处理后的MAV动作数据训练一个大型教师网络（ResNet18）。然后，利用SOKD策略将教师网络的知识迁移到MobileNetV4学生网络。在训练过程中，使用混合损失函数优化学生网络。

关键创新：MobiAct的关键创新在于以下几个方面：1) 采用了轻量级的MobileNetV4作为骨干网络，降低了计算复杂度；2) 提出了阶段式正交知识蒸馏（SOKD）策略，提高了知识迁移的效率；3) 集成了无参数注意力机制，增强了模型对关键特征的关注能力，而无需增加额外的参数；4) 开发了混合损失训练策略，确保训练过程的稳定性和鲁棒性。

关键设计：在知识蒸馏方面，SOKD策略通过在不同阶段对教师和学生网络的特征进行正交化处理，从而提高知识迁移的效率。无参数注意力机制的具体实现细节未知，但其目标是在不增加模型参数的情况下，提升模型对重要特征的关注度。混合损失函数可能包括分类损失、蒸馏损失以及其他正则化项，以平衡模型的精度和泛化能力。具体的损失函数权重和参数设置未知。

📊 实验亮点

MobiAct在三个自收集的数据集上取得了平均92.12%的识别精度，同时仅消耗136.16 pJ的能量，并以每秒8.84个动作的速度进行识别。与现有方法相比，MobiAct的动作解码速度提高了2倍，且识别精度具有高度可比性，充分证明了其在MAV动作识别方面的卓越效率。

🎯 应用场景

MobiAct在自主无人机集群、智能监控、灾害救援等领域具有广泛的应用前景。通过在资源受限的MAV平台上实现高效准确的动作识别，可以提升无人机的自主导航、目标跟踪和协同作业能力。该研究成果有助于推动无人机技术在实际场景中的应用，并为未来的智能空中机器人发展奠定基础。

📄 摘要（原文）

Accurate and efficient recognition of Micro Air Vehicle (MAV) motion is essential for enabling real-time perception and coordination in autonomous aerial swarm. However, most existing approaches rely on large, computationally intensive models that are unsuitable for resource-limited MAV platforms, which results in a trade-off between recognition accuracy and inference speed. To address these challenges, this paper proposes a lightweight MAV action recognition framework, MobiAct, designed to achieve high accuracy with low computational cost. Specifically, MobiAct adopts MobileNetV4 as the backbone network and introduces a Stage-wise Orthogonal Knowledge Distillation (SOKD) strategy to effectively transfer MAV motion features from a teacher network (ResNet18) to a student network, thereby enhancing knowledge transfer efficiency. Furthermore, a parameter-free attention mechanism is integrated into the architecture to improve recognition accuracy without increasing model complexity. In addition, a hybrid loss training strategy is developed to combine multiple loss objectives, which ensures stable and robust optimization during training. Experimental results demonstrate that the proposed MobiAct achieves low-energy and low-computation MAV action recognition, while maintaining the fastest action decoding speed among compared methods. Across all three self-collected datasets, MobiAct achieves an average recognition accuracy of 92.12%, while consuming only 136.16 pJ of energy and processing recognition at a rate of 8.84 actions per second. Notably, MobiAct decodes actions up to 2 times faster than the leading method, with highly comparable recognition accuracy, highlighting its superior efficiency in MAV action recognition.

MobiAct: Efficient MAV Action Recognition Using MobileNetV4 with Contrastive Learning and Knowledge Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册