Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

📄 arXiv: 2603.06459v1 📥 PDF

作者: Yakov Pyotr Shkolnikov

分类: cs.CV, cs.AI

发布日期: 2026-03-06


💡 一句话要点

利用冻结的预训练模型特征,通过线性探针实现连续物理测量的几何信息提取。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何信息提取 视觉-语言模型 线性探针 LoRA微调 物理测量 冻结特征 注意力机制

📋 核心要点

  1. 现有视觉-语言模型在几何信息表达上存在瓶颈,文本通路无法充分利用视觉通路编码的几何信息。
  2. 通过线性探针从冻结的视觉特征中提取几何信息,并使用LoRA微调来弥补通路训练的不足。
  3. 实验表明,训练目标比架构更重要,且模型中间层(18-22层)的注意力头包含关键几何信息。

📝 摘要(中文)

本文研究了视觉-语言模型中几何信息的编码方式。研究发现,模型的文本通路无法充分表达其视觉通路编码的连续几何信息。一个仅有6000参数的线性探针可以从冻结的视觉特征中提取手部关节角度,平均绝对误差(MAE)为6.1度,而最佳文本输出的MAE为20.0度,存在3.3倍的性能瓶颈。通过LoRA微调(r=16,2000张图像)可以将差距缩小到6.5度,表明存在通路训练不足的问题,而非表征能力不足。训练目标比模型架构更能决定精度:五个跨越自监督、对比学习和混合范式的编码器收敛到统计上等效的精度(R^2约为0.55,TOST等效于delta=0.03),尽管它们的表征相似度仅为CKA=0.41,即功能收敛而表征不收敛。自回归生成会损害几何保真度,但这种损害源于生成过程,而非语言对齐:Qwen2.5-VL的LLM层实际上提高了探针精度。逐层分析显示,所有架构都存在一个普遍的网络中间层精度峰值,其中第18-22层的注意力头携带了不成比例的几何信号。这些发现使得单个冻结的骨干网络能够通过轻量级探针充当多任务几何传感器,无需微调或文本生成。

🔬 方法详解

问题定义:现有视觉-语言模型虽然具备强大的视觉表征能力,但其文本通路在表达连续几何信息方面存在不足。直接利用文本输出进行几何测量精度较低,无法充分发挥视觉编码器的潜力。这限制了模型在需要精确几何感知的任务中的应用。

核心思路:本文的核心思路是绕过文本通路,直接从冻结的视觉编码器特征中提取几何信息。通过训练一个轻量级的线性探针,将视觉特征映射到连续的物理测量值(如手部关节角度)。这种方法旨在揭示视觉编码器中隐藏的几何信息,并探索如何更有效地利用这些信息。

技术框架:整体框架包括以下几个主要步骤:1) 使用预训练的视觉-语言模型(如CLIP、DINOv2、Qwen2.5-VL)提取图像的视觉特征。2) 在冻结视觉编码器参数的情况下,训练一个线性探针,将提取的视觉特征映射到目标几何测量值。3) 使用LoRA(Low-Rank Adaptation)对模型进行微调,以进一步提升几何信息的提取精度。4) 对不同架构和训练目标的模型进行比较,分析其几何表征能力。

关键创新:最重要的创新点在于发现视觉-语言模型的视觉编码器中蕴含着丰富的几何信息,而这些信息可以通过简单的线性探针提取出来,无需对整个模型进行微调。此外,研究还揭示了训练目标比模型架构更能决定几何信息的编码质量,以及模型中间层注意力头的重要性。

关键设计:线性探针是一个简单的线性层,将视觉特征映射到目标几何测量值。LoRA微调使用秩为16的低秩矩阵来更新模型参数。损失函数采用平均绝对误差(MAE)或均方误差(MSE)。实验中使用了多个预训练模型,包括自监督、对比学习和混合范式的模型,以比较不同训练目标的影响。

🖼️ 关键图片

fig_0

📊 实验亮点

研究表明,线性探针可以从冻结的视觉特征中提取手部关节角度,MAE为6.1度,优于最佳文本输出的20.0度。LoRA微调可以将MAE降至6.5度。不同架构的模型在几何精度上表现出统计等效性(R^2约为0.55),尽管它们的表征相似度较低(CKA=0.41)。Qwen2.5-VL的LLM层实际上提高了探针精度。

🎯 应用场景

该研究成果可应用于机器人控制、人机交互、虚拟现实/增强现实、运动捕捉等领域。通过利用预训练模型的几何感知能力,可以实现更精确的物理测量和环境理解,从而提升相关应用的用户体验和性能。未来的研究可以探索如何将这些几何信息与语言信息更好地融合,以实现更智能的多模态交互。

📄 摘要(原文)

Vision-language models encode continuous geometry that their text pathway fails to express: a 6,000-parameter linear probe extracts hand joint angles at 6.1 degrees MAE from frozen features, while the best text output achieves only 20.0 degrees -- a 3.3x bottleneck. LoRA fine-tuning (r=16, 2,000 images) narrows this gap to 6.5 degrees, providing evidence for a pathway-training deficit rather than a representational one. Training objective determines accuracy more than architecture: five encoders spanning self-supervised, contrastive, and hybrid paradigms converge to statistically equivalent accuracy (R^2 approximately 0.55, TOST-equivalent at delta=0.03) despite sharing as little as CKA=0.41 representational similarity -- functional convergence without representational convergence. Autoregressive generation damages geometric fidelity, but the damage originates in the generation process, not in language alignment: Qwen2.5-VL's LLM layers actually improve probe accuracy over its raw vision encoder. Layer-wise analysis reveals a universal mid-network accuracy peak across all architectures, with attention heads in layers 18-22 carrying disproportionate geometric signal. These findings enable a single frozen backbone to function as a multi-task geometric sensor through lightweight probes, without fine-tuning or text generation.