PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

📄 arXiv: 2603.04165v1 📥 PDF

作者: Yinghong Yu, Guangyuan Li, Jiancheng Yang

分类: cs.CV, cs.AI

发布日期: 2026-03-04

备注: Code is available at https://github.com/HINTLab/PlaneCycle

🔗 代码/项目: GITHUB


💡 一句话要点

提出PlaneCycle,无需训练和适配器即可将2D预训练模型迁移至3D任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 2D到3D迁移 预训练模型 无训练 平面循环聚合 3D视觉

📋 核心要点

  1. 现有方法将2D预训练模型迁移到3D任务通常需要重新训练或引入额外的适配器,增加了计算成本和模型复杂度。
  2. PlaneCycle通过循环地在三个正交平面上进行空间聚合,在不引入额外参数的情况下,实现了2D到3D的无缝迁移。
  3. 实验表明,PlaneCycle在多个3D分类和分割任务上,无需训练即可超越传统方法,充分微调后性能可与专用3D模型媲美。

📝 摘要(中文)

大规模2D基础模型展现出强大的可迁移表征,但将其扩展到3D体数据通常需要重新训练、适配器或架构重新设计。我们提出了PlaneCycle,一种无需训练、无需适配器的算子,用于架构无关的2D到3D模型迁移。PlaneCycle通过在网络深度上循环地在正交的HW、DW和DH平面上分配空间聚合,从而重用原始的预训练2D骨干网络,从而实现渐进式3D融合,同时保留预训练的归纳偏置。该方法不引入额外的参数,并且适用于任意2D网络。我们使用预训练的DINOv3模型,在六个3D分类和三个3D分割基准上评估PlaneCycle。在没有任何训练的情况下,迁移后的模型表现出内在的3D融合能力,并且在线性探测下,优于分片式2D基线和强大的3D对应模型,接近完全训练模型的性能。通过完全微调,PlaneCycle与标准3D架构相匹配,突出了其作为无缝且实用的2D到3D迁移算子的潜力。这些结果表明,无需结构修改或重新训练即可从预训练的2D基础模型中解锁3D能力。

🔬 方法详解

问题定义:现有方法在将2D预训练模型迁移到3D任务时,通常需要重新训练整个模型,或者引入额外的适配器模块。这不仅增加了计算成本,也可能破坏2D预训练模型中学习到的有效特征表示。因此,如何在不进行额外训练或修改网络结构的前提下,充分利用2D预训练模型的知识,成为了一个重要的研究问题。

核心思路:PlaneCycle的核心思路是通过循环地在三个正交平面(HW、DW、DH)上进行空间聚合,从而逐步将2D特征扩展到3D空间。这种循环聚合的方式能够有效地融合不同平面上的信息,从而构建出具有3D感知能力的特征表示。同时,由于PlaneCycle直接作用于现有的2D网络结构,因此可以充分利用预训练模型的权重,避免了重新训练或引入适配器带来的问题。

技术框架:PlaneCycle算子可以插入到任意2D卷积神经网络中,将其转化为3D网络。其主要流程如下:对于一个输入的2D特征图,PlaneCycle首先在HW平面上进行空间聚合,然后将结果传递到DW平面进行聚合,最后在DH平面上进行聚合。这个过程可以重复多次,以逐步增强模型的3D感知能力。整个过程没有引入额外的参数,并且可以与现有的2D网络结构无缝集成。

关键创新:PlaneCycle最重要的创新点在于其无需训练和适配器的2D到3D迁移能力。通过循环平面聚合,PlaneCycle能够在不改变原始2D网络结构和权重的情况下,有效地将2D预训练模型的知识迁移到3D任务中。这种方法不仅降低了计算成本,也避免了重新训练可能带来的性能损失。

关键设计:PlaneCycle的关键设计在于循环平面聚合的顺序和聚合方式。论文中采用了HW、DW、DH的循环顺序,并使用标准的卷积操作进行空间聚合。具体的卷积核大小、步长和填充方式可以根据具体的任务和网络结构进行调整。此外,PlaneCycle还可以与其他技术结合使用,例如线性探测和微调,以进一步提升模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PlaneCycle在多个3D分类和分割任务上取得了显著的成果。例如,在ModelNet40分类任务上,PlaneCycle在没有任何训练的情况下,通过线性探测即可达到与传统3D模型相当的性能。在ScanNet分割任务上,经过充分微调后,PlaneCycle的性能可以与最先进的3D模型相媲美。这些结果充分证明了PlaneCycle的有效性和通用性。

🎯 应用场景

PlaneCycle具有广泛的应用前景,例如医学图像分析(CT、MRI),自动驾驶(LiDAR点云处理),机器人感知等领域。它可以帮助研究人员快速构建高性能的3D模型,而无需从头开始训练,从而加速相关领域的研究进展。此外,PlaneCycle还可以应用于资源受限的设备上,例如移动机器人和嵌入式系统,因为其无需额外的训练和参数。

📄 摘要(原文)

Large-scale 2D foundation models exhibit strong transferable representations, yet extending them to 3D volumetric data typically requires retraining, adapters, or architectural redesign. We introduce PlaneCycle, a training-free, adapter-free operator for architecture-agnostic 2D-to-3D lifting of foundation models. PlaneCycle reuses the original pretrained 2D backbone by cyclically distributing spatial aggregation across orthogonal HW, DW, and DH planes throughout network depth, enabling progressive 3D fusion while preserving pretrained inductive biases. The method introduces no additional parameters and is applicable to arbitrary 2D networks. Using pretrained DINOv3 models, we evaluate PlaneCycle on six 3D classification and three 3D segmentation benchmarks. Without any training, the lifted models exhibit intrinsic 3D fusion capability and, under linear probing, outperform slice-wise 2D baselines and strong 3D counterparts, approaching the performance of fully trained models. With full fine-tuning, PlaneCycle matches standard 3D architectures, highlighting its potential as a seamless and practical 2D-to-3D lifting operator. These results demonstrate that 3D capability can be unlocked from pretrained 2D foundation models without structural modification or retraining. Code is available at https://github.com/HINTLab/PlaneCycle.