Revisiting Shape from Polarization in the Era of Vision Foundation Models

📄 arXiv: 2603.04817v1 📥 PDF

作者: Chenhao Li, Taishi Ono, Takeshi Uemori, Yusuke Moriuchi

分类: cs.CV

发布日期: 2026-03-05


💡 一句话要点

利用高质量偏振数据和领域自适应,轻量模型在单视角表面法向量估计上超越视觉基础模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏振形状恢复 表面法向量估计 领域自适应 数据增强 视觉基础模型 三维重建 机器人视觉

📋 核心要点

  1. 现有偏振形状恢复方法受限于合成数据质量低和未充分考虑真实传感器噪声导致的领域差距。
  2. 论文提出使用高质量3D扫描对象渲染偏振数据集,并结合DINOv3先验知识来提升泛化能力,同时引入传感器感知数据增强。
  3. 实验表明,该方法仅需少量训练数据和参数,即可超越现有偏振形状恢复方法和仅使用RGB的视觉基础模型。

📝 摘要(中文)

本文表明,利用偏振线索,在小数据集上训练的轻量级模型在单视角物体级表面法向量估计方面可以优于仅使用RGB的视觉基础模型(VFMs)。长期以来,偏振形状恢复(SfP)因偏振与表面几何之间的强物理关系而备受关注。同时,在缩放定律的驱动下,仅使用RGB并在大型数据集上训练的VFMs最近取得了令人印象深刻的性能,并超越了现有的SfP方法。这种情况引发了关于偏振线索必要性的问题,因为偏振线索需要专门的硬件并且训练数据有限。我们认为,先前SfP方法的较弱性能并非来自偏振模态本身,而是来自领域差距。这些领域差距主要来自两个方面。首先,现有的合成数据集使用有限且不真实的3D对象,其几何形状简单且纹理贴图随机,与底层形状不匹配。其次,真实世界的偏振信号通常受到传感器噪声的影响,而训练期间对此建模不足。为了解决第一个问题,我们使用1,954个3D扫描的真实世界对象渲染了一个高质量的偏振数据集。我们进一步结合了预训练的DINOv3先验,以提高对未见物体的泛化能力。为了解决第二个问题,我们引入了偏振传感器感知数据增强,可以更好地反映真实世界的条件。仅使用4万个训练场景,我们的方法就显著优于最先进的SfP方法和仅使用RGB的VFM。大量的实验表明,偏振线索可以减少33倍的训练数据或8倍的模型参数,同时仍然实现比仅使用RGB的同类产品更好的性能。

🔬 方法详解

问题定义:论文旨在解决单视角下物体表面法向量估计问题。现有基于偏振的形状恢复方法(SfP)性能不如基于RGB的视觉基础模型(VFMs),主要痛点在于合成训练数据质量低,与真实数据存在领域差距,并且忽略了真实偏振传感器带来的噪声影响。

核心思路:论文的核心思路是缩小合成数据与真实数据之间的领域差距,从而提升SfP方法的性能。具体来说,通过使用高质量的3D扫描对象生成更真实的偏振数据集,并引入偏振传感器感知的数据增强方法来模拟真实传感器噪声。同时,利用预训练的DINOv3模型提供的先验知识来提升模型对未见物体的泛化能力。

技术框架:整体框架包含以下几个主要步骤:1)使用1954个3D扫描的真实世界物体渲染高质量的偏振数据集。2)利用预训练的DINOv3模型提取RGB图像的特征,作为形状先验信息。3)设计偏振传感器感知的数据增强方法,模拟真实传感器噪声。4)训练一个轻量级的神经网络,输入偏振图像和DINOv3特征,输出表面法向量。

关键创新:论文的关键创新在于:1)构建了一个高质量的偏振数据集,该数据集使用真实的3D扫描对象,避免了现有合成数据集的局限性。2)提出了偏振传感器感知的数据增强方法,更真实地模拟了真实传感器噪声。3)有效利用了预训练的DINOv3模型提供的形状先验知识,提升了模型的泛化能力。

关键设计:在数据增强方面,论文考虑了偏振图像中常见的噪声类型,例如高斯噪声和泊松噪声,并根据真实传感器的特性调整了噪声参数。在网络结构方面,论文采用了一个轻量级的卷积神经网络,以降低计算成本。损失函数方面,使用了法向量的余弦相似度损失和L1损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在仅使用4万个训练场景的情况下,显著优于最先进的SfP方法和仅使用RGB的视觉基础模型。与RGB-only模型相比,该方法可以在性能相当的情况下,减少33倍的训练数据或8倍的模型参数。在真实数据集上,该方法也取得了具有竞争力的结果。

🎯 应用场景

该研究成果可应用于机器人视觉、三维重建、工业检测等领域。高质量的表面法向量估计对于物体识别、姿态估计和场景理解至关重要。该方法在低成本、低功耗的嵌入式设备上具有潜在应用价值,例如移动机器人和无人机。

📄 摘要(原文)

We show that, with polarization cues, a lightweight model trained on a small dataset can outperform RGB-only vision foundation models (VFMs) in single-shot object-level surface normal estimation. Shape from polarization (SfP) has long been studied due to the strong physical relationship between polarization and surface geometry. Meanwhile, driven by scaling laws, RGB-only VFMs trained on large datasets have recently achieved impressive performance and surpassed existing SfP methods. This situation raises questions about the necessity of polarization cues, which require specialized hardware and have limited training data. We argue that the weaker performance of prior SfP methods does not come from the polarization modality itself, but from domain gaps. These domain gaps mainly arise from two sources. First, existing synthetic datasets use limited and unrealistic 3D objects, with simple geometry and random texture maps that do not match the underlying shapes. Second, real-world polarization signals are often affected by sensor noise, which is not well modeled during training. To address the first issue, we render a high-quality polarization dataset using 1,954 3D-scanned real-world objects. We further incorporate pretrained DINOv3 priors to improve generalization to unseen objects. To address the second issue, we introduce polarization sensor-aware data augmentation that better reflects real-world conditions. With only 40K training scenes, our method significantly outperforms both state-of-the-art SfP approaches and RGB-only VFMs. Extensive experiments show that polarization cues enable a 33x reduction in training data or an 8x reduction in model parameters, while still achieving better performance than RGB-only counterparts.