Utonia: Toward One Encoder for All Point Clouds

📄 arXiv: 2603.03283v1 📥 PDF

作者: Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao

分类: cs.CV

发布日期: 2026-03-03

备注: produced by Pointcept, project page: https://pointcept.github.io/Utonia


💡 一句话要点

Utonia:面向所有点云的统一Transformer编码器,实现跨域知识迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 点云理解 Transformer 自监督学习 跨域学习 表示学习

📋 核心要点

  1. 现有方法难以有效利用来自不同领域点云数据,阻碍了通用点云理解模型的发展。
  2. Utonia通过自监督学习训练统一的Transformer编码器,旨在学习跨域一致的点云表示空间。
  3. 实验表明,Utonia在感知、具身和多模态推理任务上均有提升,并展现出有趣的涌现行为。

📝 摘要(中文)

我们设想未来所有领域的点云可以汇聚在一起,形成一个惠及所有领域的单一模型。为了实现这一目标,我们提出了Utonia,这是朝着训练一个跨多个领域的单一自监督点云Transformer编码器的第一步,这些领域包括遥感、室外LiDAR、室内RGB-D序列、以对象为中心的CAD模型以及从仅RGB视频中提取的点云。尽管它们具有不同的传感几何形状、密度和先验知识,但Utonia学习了一个跨领域一致的表示空间,实现了跨域迁移。这种统一提高了感知能力,同时揭示了只有在联合训练领域时才会出现的有趣的涌现行为。除了感知之外,我们观察到Utonia表示还可以有益于具身和多模态推理:将视觉-语言-动作策略建立在Utonia特征之上可以改善机器人操作,并将它们集成到视觉-语言模型中可以提高空间推理能力。我们希望Utonia可以作为稀疏3D数据基础模型的一步,并支持AR/VR、机器人和自动驾驶领域的下游应用。

🔬 方法详解

问题定义:现有方法通常针对特定领域的点云数据进行训练,难以泛化到其他领域。不同领域的点云数据在传感方式、密度和先验知识上存在差异,导致模型难以学习到通用的点云表示。因此,如何利用来自不同领域的点云数据训练一个通用的点云理解模型是一个挑战。

核心思路:Utonia的核心思路是利用自监督学习,训练一个统一的Transformer编码器,使其能够学习到跨领域一致的点云表示。通过在多个领域的数据上进行联合训练,Utonia可以学习到不同领域之间的共性,从而实现跨域知识迁移。

技术框架:Utonia的整体架构包括一个点云Transformer编码器和一个自监督学习模块。点云Transformer编码器负责将点云数据编码成高维特征表示。自监督学习模块负责设计合适的预训练任务,例如点云补全、点云着色等,从而使编码器能够学习到有用的点云表示。在训练过程中,Utonia将来自不同领域的点云数据输入到编码器中,并通过自监督学习模块进行训练。

关键创新:Utonia最重要的技术创新点在于提出了一个统一的点云Transformer编码器,该编码器能够学习到跨领域一致的点云表示。与现有方法相比,Utonia不需要针对每个领域单独训练模型,从而大大降低了模型的训练成本。此外,Utonia还能够实现跨域知识迁移,从而提高模型在各个领域的性能。

关键设计:Utonia的关键设计包括:1) 使用Transformer作为点云编码器,Transformer具有强大的特征提取能力和全局感受野;2) 设计了多种自监督学习任务,例如点云补全、点云着色等,从而使编码器能够学习到丰富的点云特征;3) 使用对比学习损失函数,从而使编码器能够学习到跨领域一致的点云表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Utonia在多个领域的点云感知任务上取得了显著的性能提升。例如,在机器人操作任务中,将视觉-语言-动作策略建立在Utonia特征之上可以显著提高机器人的操作成功率。此外,将Utonia集成到视觉-语言模型中可以提高空间推理能力。这些实验结果表明,Utonia能够学习到有用的点云表示,并能够实现跨域知识迁移。

🎯 应用场景

Utonia具有广泛的应用前景,包括AR/VR、机器人和自动驾驶等领域。在AR/VR领域,Utonia可以用于场景重建、物体识别和姿态估计等任务。在机器人领域,Utonia可以用于机器人导航、物体抓取和操作等任务。在自动驾驶领域,Utonia可以用于车辆检测、道路分割和交通预测等任务。Utonia的跨域知识迁移能力使其能够适应各种不同的应用场景,从而提高系统的鲁棒性和泛化能力。

📄 摘要(原文)

We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.