MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

📄 arXiv: 2603.05421v1 📥 PDF

作者: Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-05

备注: Project website: www.numansaeed.com/mobilefetalclip

🔗 代码/项目: GITHUB


💡 一句话要点

提出选择性排斥知识蒸馏,用于移动端胎儿超声分析,性能超越大型模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胎儿超声 知识蒸馏 移动AI 对比学习 模型压缩 医学影像分析

📋 核心要点

  1. 现有胎儿超声AI模型参数量巨大,难以在移动设备上部署,限制了其在资源匮乏地区的应用。
  2. 提出选择性排斥知识蒸馏,通过排斥教师模型的类间混淆,引导学生模型学习更有效的特征。
  3. 实验表明,该方法显著提升了小型模型在胎儿超声分析任务上的性能,超越了大型教师模型。

📝 摘要(中文)

胎儿超声AI有望变革低资源环境下的产前护理,但现有基础模型参数量超过3亿,无法部署在即时护理设备上。标准知识蒸馏在这种极端容量差距(约26倍)下失效,因为小型学生模型浪费算力来模仿超大教师模型的架构伪影。我们引入选择性排斥知识蒸馏,将对比知识蒸馏分解为对角和非对角分量:保持匹配对齐,同时非对角权重衰减为负值,排斥学生模型学习教师模型的类间混淆,并迫使其发现架构原生的特征。我们1140万参数的学生模型在零样本HC18生物测量有效性(88.6% vs. 83.5%)和脑部子平面F1(0.784 vs. 0.702)上超越了3.04亿参数的FetalCLIP教师模型,同时在iPhone 16 Pro上以1.6毫秒的速度运行,从而在手持超声设备上实现实时辅助AI。我们的代码、模型和应用程序可在https://github.com/numanai/MobileFetalCLIP公开获取。

🔬 方法详解

问题定义:论文旨在解决胎儿超声AI模型在移动设备上部署的难题。现有的大型模型参数量过大,无法在算力有限的移动设备上运行。传统的知识蒸馏方法在教师模型和学生模型容量差距过大时效果不佳,学生模型容易学习到教师模型的架构伪影,而非真正有用的知识。

核心思路:论文的核心思路是提出一种选择性排斥知识蒸馏方法,该方法通过分解对比知识蒸馏,并对非对角分量施加负权重,从而引导学生模型避免学习教师模型的类间混淆。这种方法迫使学生模型学习更具判别性的特征,从而在小模型上实现更好的性能。

技术框架:整体框架基于知识蒸馏,包含一个大型的教师模型(FetalCLIP)和一个小型学生模型(MobileFetalCLIP)。训练过程中,首先使用对比学习训练教师模型,然后使用选择性排斥知识蒸馏训练学生模型。该框架主要包含特征提取、对比学习和知识蒸馏三个阶段。

关键创新:最重要的技术创新点在于选择性排斥知识蒸馏方法。与传统的知识蒸馏方法不同,该方法不仅鼓励学生模型学习教师模型的正确预测,还通过负权重排斥学生模型学习教师模型的错误预测。这种方法可以有效地避免学生模型学习到教师模型的架构伪影,从而提高模型的泛化能力。

关键设计:选择性排斥知识蒸馏的关键在于对比损失函数的分解和非对角分量的负权重设计。具体来说,对比损失函数被分解为对角分量(匹配对的对齐)和非对角分量(非匹配对的排斥)。然后,对非对角分量施加负权重,从而鼓励学生模型远离教师模型的类间混淆。此外,论文还探索了不同的负权重系数,并选择了最佳的参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法训练的1140万参数学生模型在零样本HC18生物测量有效性(88.6% vs. 83.5%)和脑部子平面F1(0.784 vs. 0.702)上超越了3.04亿参数的FetalCLIP教师模型。此外,该模型在iPhone 16 Pro上以1.6毫秒的速度运行,实现了实时推理。

🎯 应用场景

该研究成果可应用于开发移动端的胎儿超声辅助诊断系统,尤其适用于资源匮乏地区。医生可以使用手持超声设备和该AI模型进行实时辅助诊断,提高诊断效率和准确性,从而改善孕妇和胎儿的健康状况。未来,该技术还可扩展到其他医学影像分析领域。

📄 摘要(原文)

Fetal ultrasound AI could transform prenatal care in low-resource settings, yet current foundation models exceed 300M visual parameters, precluding deployment on point-of-care devices. Standard knowledge distillation fails under such extreme capacity gaps (~26x), as compact students waste capacity mimicking architectural artifacts of oversized teachers. We introduce Selective Repulsive Knowledge Distillation, which decomposes contrastive KD into diagonal and off-diagonal components: matched pair alignment is preserved while the off-diagonal weight decays into negative values, repelling the student from the teacher's inter-class confusions and forcing discovery of architecturally native features. Our 11.4M parameter student surpasses the 304M-parameter FetalCLIP teacher on zero-shot HC18 biometry validity (88.6% vs. 83.5%) and brain sub-plane F1 (0.784 vs. 0.702), while running at 1.6 ms on iPhone 16 Pro, enabling real-time assistive AI on handheld ultrasound devices. Our code, models, and app are publicly available at https://github.com/numanai/MobileFetalCLIP.