From Rays to Projections: Better Inputs for Feed-Forward View Synthesis

📄 arXiv: 2601.05116v1 📥 PDF

作者: Zirui Wu, Zeren Jiang, Martin R. Oswald, Jie Song

分类: cs.CV

发布日期: 2026-01-08

备注: Project Page: https://wuzirui.github.io/pvsm-web


💡 一句话要点

提出基于投影变换的输入方法,提升前馈视角合成的几何一致性和鲁棒性

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视角合成 前馈网络 投影变换 几何一致性 掩码自编码 图像到图像转换 novel view synthesis

📋 核心要点

  1. 现有前馈视角合成模型依赖Plücker射线图编码相机参数,导致对相机位姿变化敏感,几何一致性差。
  2. 提出投影条件化方法,使用目标视角的投影提示作为输入,将问题转化为图像到图像的转换。
  3. 引入掩码自编码预训练策略,利用大规模未校准数据提升模型性能,并在多个基准测试中取得SOTA。

📝 摘要(中文)

本文提出了一种改进前馈视角合成模型输入的方法,旨在解决现有方法对相机参数敏感、几何一致性差的问题。现有方法通常使用Plücker射线图编码相机参数,这使得预测结果依赖于任意的世界坐标系,并对微小的相机变换非常敏感。本文提出了一种投影条件化方法,使用目标视角的投影提示代替原始相机参数,提供更稳定的2D输入。这种方法将视角合成任务从射线空间中脆弱的几何回归问题转化为条件良好的目标视角图像到图像的转换问题。此外,本文还引入了一种针对此提示的掩码自编码预训练策略,从而可以使用大规模的未校准数据进行预训练。实验结果表明,该方法在视角一致性基准测试中表现出更高的保真度和更强的跨视角一致性,并在标准的novel view synthesis基准测试中实现了最先进的质量。

🔬 方法详解

问题定义:现有前馈视角合成模型使用Plücker射线图等原始相机参数作为输入,这使得模型对坐标系的选取非常敏感,即使是微小的相机位姿变化也会导致预测结果的显著变化,从而影响几何一致性。这种依赖于射线空间的几何回归问题本身就比较困难,模型难以学习到鲁棒的映射关系。

核心思路:本文的核心思路是将视角合成问题转化为一个条件良好的图像到图像的转换问题。具体来说,就是不再直接使用原始的相机参数,而是使用目标视角的投影提示(projective cue)作为输入。投影提示包含了目标视角的信息,可以提供更稳定的2D输入,从而避免了对相机位姿的直接依赖。

技术框架:整体框架包括以下几个主要部分:1) 投影提示生成模块:根据源图像和目标视角的相机参数,生成目标视角的投影提示。2) 编码器-解码器网络:使用编码器将投影提示编码成潜在表示,然后使用解码器将潜在表示解码成目标视角的图像。3) 掩码自编码预训练模块:使用大规模未校准数据,通过掩码自编码的方式预训练编码器和解码器,提升模型的泛化能力。

关键创新:最重要的技术创新点在于使用投影提示代替原始相机参数作为输入。这种方法将视角合成问题从一个依赖于射线空间的几何回归问题,转化为一个条件良好的图像到图像的转换问题。此外,针对投影提示的掩码自编码预训练策略也是一个重要的创新,它可以利用大规模的未校准数据来提升模型的性能。

关键设计:投影提示的具体形式可以是目标视角的深度图、光流图或者其他与目标视角相关的图像特征。掩码自编码预训练的具体做法是随机mask掉投影提示的一部分区域,然后让模型预测被mask掉的区域。损失函数可以使用L1损失、L2损失或者其他图像重建损失。网络结构可以使用U-Net、Transformer或者其他图像生成模型。

📊 实验亮点

实验结果表明,该方法在视角一致性基准测试中表现出更高的保真度和更强的跨视角一致性。在标准的novel view synthesis基准测试中,该方法也取得了state-of-the-art的性能。与基于射线条件化的基线方法相比,该方法在多个指标上都有显著提升。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、自动驾驶、机器人导航等领域。通过该方法,可以更准确、更鲁棒地合成任意视角的图像,从而提升用户体验和系统性能。例如,在自动驾驶中,可以利用该方法合成不同视角的图像,从而提升车辆对周围环境的感知能力。

📄 摘要(原文)

Feed-forward view synthesis models predict a novel view in a single pass with minimal 3D inductive bias. Existing works encode cameras as Plücker ray maps, which tie predictions to the arbitrary world coordinate gauge and make them sensitive to small camera transformations, thereby undermining geometric consistency. In this paper, we ask what inputs best condition a model for robust and consistent view synthesis. We propose projective conditioning, which replaces raw camera parameters with a target-view projective cue that provides a stable 2D input. This reframes the task from a brittle geometric regression problem in ray space to a well-conditioned target-view image-to-image translation problem. Additionally, we introduce a masked autoencoding pretraining strategy tailored to this cue, enabling the use of large-scale uncalibrated data for pretraining. Our method shows improved fidelity and stronger cross-view consistency compared to ray-conditioned baselines on our view-consistency benchmark. It also achieves state-of-the-art quality on standard novel view synthesis benchmarks.