LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

📄 arXiv: 2509.09926v3 📥 PDF

作者: Zhiyuan Huang, Jiahao Chen, Yurou Liu, Bing Su

分类: cs.LG, cs.CV

发布日期: 2025-09-12 (更新: 2025-10-02)


💡 一句话要点

提出LoFT框架,通过高效参数微调解决开放世界长尾半监督学习问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长尾学习 半监督学习 开放世界 参数高效微调 预训练模型 伪标签 分布外检测

📋 核心要点

  1. 现有LTSSL方法从头训练模型,易导致过拟合和伪标签质量低。
  2. LoFT框架通过微调预训练模型,生成更可靠的伪标签,提升不平衡学习效果。
  3. LoFT-OW解决开放世界场景下的OOD问题,实验表明性能优于现有方法。

📝 摘要(中文)

长尾学习因其在现实场景中的广泛适用性而受到越来越多的关注。在现有方法中,长尾半监督学习(LTSSL)通过将大量未标记数据纳入不平衡的标记数据集,成为一种有效的解决方案。然而,大多数先前的LTSSL方法被设计为从头开始训练模型,这通常会导致过度自信和低质量伪标签等问题。为了应对这些挑战,我们将LTSSL扩展到基础模型微调范式,并提出了一个新颖的框架:LoFT(通过高效参数微调进行长尾半监督学习)。我们证明了微调后的基础模型可以生成更可靠的伪标签,从而有利于不平衡学习。此外,我们通过研究开放世界条件下的半监督学习,探索了一种更实用的设置,其中未标记的数据可能包含分布外(OOD)样本。为了解决这个问题,我们提出了LoFT-OW(开放世界场景下的LoFT)来提高判别能力。在多个基准上的实验结果表明,与以前的方法相比,我们的方法取得了优异的性能,即使只使用了以前工作1%的未标记数据。

🔬 方法详解

问题定义:论文旨在解决长尾半监督学习(LTSSL)问题,尤其是在开放世界场景下,即未标记数据中包含分布外(OOD)样本的情况。现有LTSSL方法通常从头开始训练模型,这容易导致模型过度自信,生成低质量的伪标签,从而影响学习效果。此外,现有方法在处理OOD样本时缺乏有效的判别能力。

核心思路:论文的核心思路是将LTSSL问题置于基础模型微调的范式下。利用预训练模型强大的表征能力,通过参数高效的微调方法(Parameter-Efficient Fine-Tuning)来适应长尾数据分布。这种方法可以有效避免从头训练带来的问题,并能更好地利用未标记数据。针对开放世界场景,进一步提升模型对OOD样本的判别能力。

技术框架:LoFT框架主要包含以下几个阶段:1) 使用预训练的基础模型对标记和未标记数据进行特征提取。2) 利用标记数据对基础模型进行参数高效的微调,使其初步适应长尾数据分布。3) 使用微调后的模型生成伪标签,并筛选高质量的伪标签用于后续训练。4) 针对开放世界场景,LoFT-OW引入额外的机制来区分OOD样本,例如通过置信度阈值或对抗训练等方法。5) 结合标记数据和高质量的伪标签,进一步微调模型,提升整体性能。

关键创新:论文的关键创新在于将基础模型微调引入LTSSL领域,并提出了LoFT框架。与从头训练相比,微调可以更好地利用预训练模型的知识,生成更可靠的伪标签。此外,LoFT-OW针对开放世界场景进行了优化,提高了模型对OOD样本的鲁棒性。参数高效微调的使用降低了计算成本,使得该方法更具实用性。

关键设计:论文的关键设计包括:1) 选择合适的预训练模型作为基础模型。2) 采用参数高效的微调方法,例如Adapter或LoRA,以减少计算量和存储需求。3) 设计有效的伪标签筛选策略,例如基于置信度阈值或一致性正则化。4) 针对开放世界场景,设计OOD检测模块,例如基于能量的OOD检测或对抗训练。5) 损失函数的设计需要考虑长尾数据的特点,例如采用类平衡损失或重采样策略。

📊 实验亮点

实验结果表明,LoFT框架在多个长尾半监督学习基准数据集上取得了显著的性能提升,尤其是在开放世界场景下,LoFT-OW能够有效区分OOD样本,并保持较高的分类精度。值得注意的是,LoFT框架仅使用少量未标记数据(例如,仅为先前工作的1%)就能达到甚至超过现有方法的性能,体现了其高效性和实用性。

🎯 应用场景

该研究成果可应用于图像识别、目标检测、自然语言处理等领域,尤其是在数据分布不平衡且存在大量未标记数据的场景下,例如医疗影像分析、自动驾驶、社交媒体内容审核等。通过利用预训练模型和高效微调技术,可以有效提升模型在长尾数据上的性能,降低对大量标记数据的依赖,具有重要的实际应用价值。

📄 摘要(原文)

Long-tailed learning has garnered increasing attention due to its wide applicability in real-world scenarios. Among existing approaches, Long-Tailed Semi-Supervised Learning (LTSSL) has emerged as an effective solution by incorporating a large amount of unlabeled data into the imbalanced labeled dataset. However, most prior LTSSL methods are designed to train models from scratch, which often leads to issues such as overconfidence and low-quality pseudo-labels. To address these challenges, we extend LTSSL into the foundation model fine-tuning paradigm and propose a novel framework: LoFT (Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning). We demonstrate that fine-tuned foundation models can generate more reliable pseudolabels, thereby benefiting imbalanced learning. Furthermore, we explore a more practical setting by investigating semi-supervised learning under open-world conditions, where the unlabeled data may include out-of-distribution (OOD) samples. To handle this problem, we propose LoFT-OW (LoFT under Open-World scenarios) to improve the discriminative ability. Experimental results on multiple benchmarks demonstrate that our method achieves superior performance compared to previous approaches, even when utilizing only 1\% of the unlabeled data compared with previous works.