Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation
作者: Chonghua Lv, Dong Zhao, Shuang Wang, Dou Quan, Ning Huyan, Nicu Sebe, Zhun Zhong
分类: cs.CV
发布日期: 2026-03-03
备注: Accepted by CVPR2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出通用知识蒸馏GKD,提升语义分割模型在跨域泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 语义分割 领域泛化 视觉基础模型 表示学习
📋 核心要点
- 传统知识蒸馏在语义分割中压缩模型时,忽略了模型在分布偏移下的泛化能力,尤其是在蒸馏视觉基础模型时会损害其鲁棒性。
- GKD框架通过解耦表示学习和任务学习,并引入基于查询的软蒸馏机制,显式地增强了学生模型在跨域场景下的泛化能力。
- 实验结果表明,GKD在多个领域泛化基准上显著优于现有知识蒸馏方法,尤其是在基础模型到本地模型的蒸馏中提升明显。
📝 摘要(中文)
知识蒸馏(KD)已被广泛应用于语义分割中以压缩大型模型,但传统方法主要保留了域内准确性,而忽略了域外泛化,这在分布偏移下至关重要。随着视觉基础模型(VFMs)的出现,这种局限性变得更加严重:尽管VFMs在未见数据上表现出强大的鲁棒性,但使用传统KD对其进行蒸馏通常会损害这种能力。我们提出了通用知识蒸馏(GKD),这是一个显式增强泛化的多阶段框架。GKD将表示学习与任务学习解耦。在第一阶段,学生通过选择性特征蒸馏获得领域无关的表示,在第二阶段,这些表示被冻结以进行任务适应,从而减轻对可见域的过拟合。为了进一步支持迁移,我们引入了一种基于查询的软蒸馏机制,其中学生特征充当查询,以从教师表示中选择性地检索可迁移的空间知识。在五个领域泛化基准上的大量实验表明,GKD始终优于现有的KD方法,在基础模型到基础模型(F2F)蒸馏中平均提高了+1.9%,在基础模型到本地模型(F2L)蒸馏中平均提高了+10.6%。代码可在https://github.com/Younger-hua/GKD 获取。
🔬 方法详解
问题定义:现有知识蒸馏方法在语义分割任务中,主要关注提升模型在训练数据分布上的性能,而忽略了模型在未见过的领域或数据分布上的泛化能力。尤其是在利用视觉基础模型进行知识蒸馏时,传统方法往往会损害基础模型本身所具备的强大泛化能力。因此,如何设计一种知识蒸馏方法,既能压缩模型,又能保持甚至提升模型的跨域泛化能力,是一个重要的挑战。
核心思路:论文的核心思路是将表示学习和任务学习解耦。首先,让学生模型学习领域无关的通用表示,然后再基于这些表示进行特定任务的适应。通过这种方式,可以避免学生模型过度拟合训练数据,从而提升其在未见领域上的泛化能力。此外,论文还引入了基于查询的软蒸馏机制,让学生模型能够选择性地从教师模型中学习可迁移的空间知识。
技术框架:GKD框架包含两个主要阶段:1) 领域无关表示学习阶段:学生模型通过选择性特征蒸馏,学习教师模型(视觉基础模型)的通用表示。2) 任务适应阶段:学生模型冻结第一阶段学习到的表示,然后进行特定任务的微调。在特征蒸馏过程中,学生模型的特征作为查询,从教师模型的特征中检索相关的空间知识。
关键创新:论文的关键创新在于:1) 将表示学习和任务学习解耦,避免学生模型过度拟合训练数据。2) 引入基于查询的软蒸馏机制,让学生模型能够选择性地学习教师模型的可迁移知识。这种选择性学习机制可以避免学生模型学习到教师模型中特定于训练领域的噪声信息。
关键设计:在选择性特征蒸馏中,使用余弦相似度来衡量学生特征和教师特征之间的相关性,并选择与学生特征最相关的教师特征进行蒸馏。损失函数包括特征蒸馏损失和分割损失。特征蒸馏损失用于衡量学生特征和教师特征之间的差异,分割损失用于衡量学生模型的分割结果与真实标签之间的差异。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
GKD在五个领域泛化基准上进行了评估,结果表明GKD始终优于现有的知识蒸馏方法。在基础模型到基础模型(F2F)蒸馏中,GKD平均提高了+1.9%,在基础模型到本地模型(F2L)蒸馏中,GKD平均提高了+10.6%。这些结果表明,GKD能够有效地提升语义分割模型在跨域场景下的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要模型具备良好泛化能力的语义分割场景,例如自动驾驶、遥感图像分析、医学图像分析等。通过知识蒸馏,可以将大型视觉基础模型的知识迁移到小型模型中,从而在资源受限的设备上部署高性能的语义分割模型。该方法有助于提升模型在复杂、多变环境下的鲁棒性和可靠性。
📄 摘要(原文)
Knowledge distillation (KD) has been widely applied in semantic segmentation to compress large models, but conventional approaches primarily preserve in-domain accuracy while neglecting out-of-domain generalization, which is essential under distribution shifts. This limitation becomes more severe with the emergence of vision foundation models (VFMs): although VFMs exhibit strong robustness on unseen data, distilling them with conventional KD often compromises this ability. We propose Generalizable Knowledge Distillation (GKD), a multi-stage framework that explicitly enhances generalization. GKD decouples representation learning from task learning. In the first stage, the student acquires domain-agnostic representations through selective feature distillation, and in the second stage, these representations are frozen for task adaptation, thereby mitigating overfitting to visible domains. To further support transfer, we introduce a query-based soft distillation mechanism, where student features act as queries to teacher representations to selectively retrieve transferable spatial knowledge from VFMs. Extensive experiments on five domain generalization benchmarks demonstrate that GKD consistently outperforms existing KD methods, achieving average gains of +1.9% in foundation-to-foundation (F2F) and +10.6% in foundation-to-local (F2L) distillation. The code will be available at https://github.com/Younger-hua/GKD.