LayerLock: Non-collapsing Representation Learning with Progressive Freezing
作者: Goker Erdogan, Nikhil Parthasarathy, Catalin Ionescu, Drew A. Hudson, Alexander Lerchner, Andrew Zisserman, Mehdi S. M. Sajjadi, Joao Carreira
分类: cs.CV
发布日期: 2025-09-12 (更新: 2025-09-30)
备注: ICCV 2025
💡 一句话要点
LayerLock:通过渐进式冻结实现非坍塌的自监督表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 视觉表征学习 掩码自编码器 渐进式冻结 表征坍塌
📋 核心要点
- 现有视频MAE模型训练效率低,且深层网络收敛慢,需要更高效的训练策略。
- LayerLock通过渐进式冻结网络层,加速训练过程,并避免潜在空间预测中的表征坍塌问题。
- 实验表明,LayerLock在大型模型上表现出色,并在4DS感知套件上超越了非潜在空间掩码预测方法。
📝 摘要(中文)
本文提出LayerLock,一种简单而有效的自监督视觉表征学习方法,通过渐进式层冻结,逐步从像素预测过渡到潜在空间预测。研究发现,在视频掩码自编码器(MAE)模型的训练过程中,ViT层的收敛速度与其深度有关:浅层收敛早,深层收敛晚。基于此,本文提出可以通过根据显式的时间表逐步冻结模型来加速标准MAE的训练。此外,该时间表可以应用于一种简单且可扩展的潜在空间预测方法,且不会遭受“表征坍塌”的问题。本文将提出的LayerLock方法应用于高达40亿参数的大型模型,在4DS感知套件上的结果超过了非潜在空间的掩码预测。
🔬 方法详解
问题定义:现有的视频掩码自编码器(MAE)训练效率较低,尤其是在训练大型模型时,深层网络的收敛速度慢,导致整体训练时间长。此外,直接在潜在空间进行预测容易出现“表征坍塌”问题,即模型学习到的表征缺乏区分性,所有输入都映射到相同的输出。
核心思路:LayerLock的核心思路是利用ViT层收敛速度与其深度相关的特性,通过渐进式地冻结已经收敛的浅层网络,将计算资源集中在尚未收敛的深层网络上,从而加速训练过程。同时,通过特定的冻结策略,避免潜在空间预测中的表征坍塌问题。
技术框架:LayerLock的整体框架基于标准的MAE,主要包含以下几个阶段:1) 输入视频帧进行掩码;2) 使用ViT编码器提取特征;3) 根据预设的时间表,逐步冻结ViT的浅层;4) 使用解码器重建被掩码的区域或预测潜在表征;5) 计算损失并更新未冻结的网络参数。
关键创新:LayerLock的关键创新在于提出了渐进式层冻结策略,该策略不仅加速了训练过程,还避免了潜在空间预测中的表征坍塌问题。与传统的MAE方法相比,LayerLock能够更有效地利用计算资源,并学习到更具区分性的表征。
关键设计:LayerLock的关键设计包括:1) 显式的冻结时间表,该时间表决定了每一层何时被冻结;2) 损失函数的设计,根据任务选择合适的损失函数,例如重建损失或对比学习损失;3) 网络结构的选择,可以使用不同的ViT变体作为编码器。
📊 实验亮点
LayerLock在大型模型(高达40亿参数)上进行了实验,结果表明其性能优于非潜在空间的掩码预测方法。在4DS感知套件上的实验结果表明,LayerLock能够有效地学习到高质量的视觉表征,并在各种下游任务上取得了显著的性能提升。具体的数据指标和提升幅度在论文中有详细的展示。
🎯 应用场景
LayerLock具有广泛的应用前景,可用于视频理解、动作识别、视频生成等领域。通过加速自监督学习过程,可以更高效地训练大型视觉模型,从而提升下游任务的性能。此外,LayerLock避免表征坍塌的能力,使其在需要高质量表征的任务中具有优势,例如视频检索和视频聚类。
📄 摘要(原文)
We introduce LayerLock, a simple yet effective approach for self-supervised visual representation learning, that gradually transitions from pixel to latent prediction through progressive layer freezing. First, we make the observation that during training of video masked-autoencoding (MAE) models, ViT layers converge in the order of their depth: shallower layers converge early, deeper layers converge late. We then show that this observation can be exploited to accelerate standard MAE by progressively freezing the model according to an explicit schedule, throughout training. Furthermore, this same schedule can be used in a simple and scalable approach to latent prediction that does not suffer from "representation collapse". We apply our proposed approach, LayerLock, to large models of up to 4B parameters with results surpassing those of non-latent masked prediction on the 4DS perception suite.