FRIEREN: Federated Learning with Vision-Language Regularization for Segmentation

作者: Ding-Ruei Shen

分类: cs.CV

发布日期: 2025-10-02

备注: Master Thesis

💡 一句话要点

提出FRIEREN框架，利用视觉-语言正则化进行联邦学习语义分割，解决无标签数据下的领域泛化问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 语义分割 领域泛化 视觉-语言模型 CLIP 伪标签 一致性学习

📋 核心要点

现有联邦学习方法在语义分割任务中，通常需要客户端提供标注数据，或未能充分利用视觉基础模型的能力，限制了其在无标签数据场景下的应用。
FRIEREN框架通过引入视觉-语言解码器，并结合CLIP文本嵌入，提升语义分割的消歧能力。同时，采用弱到强的持续性学习策略，增强本地训练的鲁棒性。
在合成到真实和清晰到恶劣天气等基准测试中，FRIEREN框架表现出与现有领域泛化和适应方法相当的性能，为未来的研究提供了新的基线。

📝 摘要（中文）

联邦学习(FL)为语义分割(SS)任务提供了一种保护隐私的解决方案，使其能够适应新的领域，但面临着来自领域转移的重大挑战，尤其是在客户端数据没有标签的情况下。然而，大多数现有的FL方法不切实际地假设可以访问远程客户端上的标记数据，或者未能利用现代视觉基础模型(VFMs)的力量。在这里，我们提出了一个新的具有挑战性的任务FFREEDG，其中模型在服务器的标记源数据集上进行预训练，然后仅使用客户端的未标记数据进行训练，而无需重新访问源数据。为了解决FFREEDG，我们提出了FRIEREN，一个通过整合视觉和语言模态来利用VFM知识的框架。我们的方法采用由基于CLIP的文本嵌入引导的视觉-语言解码器来改善语义消歧，并使用弱到强的持续性学习策略，以便在伪标签上进行鲁棒的本地训练。我们在合成到真实和清晰到恶劣天气的基准测试上的实验表明，我们的框架有效地解决了这个新任务，与已建立的领域泛化和适应方法相比，实现了有竞争力的性能，并为未来的研究奠定了坚实的基础。

🔬 方法详解

问题定义：论文旨在解决联邦学习场景下，客户端数据无标签时的语义分割领域泛化问题。现有方法要么假设客户端有标签数据，这在实际应用中往往不成立；要么未能有效利用大规模视觉基础模型(VFMs)的知识，导致模型在目标域上的性能不佳。

核心思路：FRIEREN的核心思路是利用视觉-语言模型(VLM)的先验知识，通过文本嵌入引导语义分割，从而在无标签数据上实现有效的领域泛化。同时，采用弱到强的持续性学习策略，提高模型对伪标签噪声的鲁棒性。

技术框架：FRIEREN框架包含以下主要模块：1) 预训练的语义分割模型（在服务器端使用标记数据进行预训练）；2) 基于CLIP的文本编码器（用于提取语义类别的文本嵌入）；3) 视觉-语言解码器（将视觉特征和文本嵌入融合，生成分割结果）；4) 弱到强的持续性学习模块（利用弱增强和强增强的伪标签进行一致性训练）。整体流程是，服务器端预训练模型，然后将模型分发到客户端进行本地训练，客户端使用未标记数据和VLM的知识进行训练，最后将更新后的模型参数聚合到服务器。

关键创新：FRIEREN的关键创新在于：1) 提出了一种新的联邦学习任务FFREEDG，即在无标签客户端数据下进行领域泛化；2) 引入视觉-语言正则化，利用VLM的知识来指导语义分割，解决了无标签数据下的语义消歧问题；3) 采用弱到强的持续性学习策略，提高了模型对伪标签噪声的鲁棒性。

关键设计：FRIEREN的关键设计包括：1) 使用CLIP模型提取语义类别的文本嵌入，作为视觉-语言解码器的先验知识；2) 设计视觉-语言解码器，将视觉特征和文本嵌入进行融合，生成分割结果；3) 使用弱增强和强增强生成伪标签，并利用一致性损失来约束模型的输出，提高模型的鲁棒性。具体的损失函数包括分割损失和一致性损失，网络结构采用常见的编码器-解码器结构，解码器部分融合了视觉特征和文本嵌入。

📊 实验亮点

FRIEREN框架在合成到真实和清晰到恶劣天气的基准测试中取得了显著成果。例如，在Cityscapes到ACDC的迁移学习任务中，FRIEREN的性能优于现有的领域泛化和适应方法，证明了其在无标签数据下的有效性。实验结果表明，FRIEREN能够有效地利用视觉-语言模型的知识，提高语义分割的准确性和鲁棒性。

🎯 应用场景

FRIEREN框架可应用于自动驾驶、遥感图像分析、医疗图像诊断等领域，尤其是在数据隐私敏感且难以获取标注数据的场景下。例如，在自动驾驶中，可以利用FRIEREN框架，在不同城市或地区的车辆上进行联邦学习，提升模型在各种天气和光照条件下的感知能力，而无需共享原始图像数据。

📄 摘要（原文）

Federeated Learning (FL) offers a privacy-preserving solution for Semantic Segmentation (SS) tasks to adapt to new domains, but faces significant challenges from these domain shifts, particularly when client data is unlabeled. However, most existing FL methods unrealistically assume access to labeled data on remote clients or fail to leverage the power of modern Vision Foundation Models (VFMs). Here, we propose a novel and challenging task, FFREEDG, in which a model is pretrained on a server's labeled source dataset and subsequently trained across clients using only their unlabeled data, without ever re-accessing the source. To solve FFREEDG, we propose FRIEREN, a framework that leverages the knowledge of a VFM by integrating vision and language modalities. Our approach employs a Vision-Language decoder guided by CLIP-based text embeddings to improve semantic disambiguation and uses a weak-to-strong consistency learning strategy for robust local training on pseudo-labels. Our experiments on synthetic-to-real and clear-to-adverse-weather benchmarks demonstrate that our framework effectively tackles this new task, achieving competitive performance against established domain generalization and adaptation methods and setting a strong baseline for future research.

FRIEREN: Federated Learning with Vision-Language Regularization for Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册