FractalPINN-Flow: A Fractal-Inspired Network for Unsupervised Optical Flow Estimation with Total Variation Regularization

📄 arXiv: 2509.08670v1 📥 PDF

作者: Sara Behnamian, Rasoul Khaksarinezhad, Andreas Langer

分类: cs.CV

发布日期: 2025-09-10


💡 一句话要点

提出FractalPINN-Flow,一种基于分形网络的无监督光流估计方法。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光流估计 无监督学习 分形网络 深度学习 全变分正则化

📋 核心要点

  1. 现有光流估计方法依赖大量标注数据,且难以捕捉高分辨率图像中的细节和长程运动。
  2. FractalPINN-Flow利用分形变形网络(FDN)的递归结构,无需标注即可学习光流,并有效捕捉多尺度运动信息。
  3. 实验表明,该方法在合成和真实数据集上均能产生准确、平滑的光流场,尤其擅长处理高分辨率图像。

📝 摘要(中文)

本文提出了一种名为FractalPINN-Flow的无监督深度学习框架,用于稠密光流估计,该框架直接从连续的灰度帧中学习,无需ground truth。其架构核心是分形变形网络(FDN),这是一个受分形几何和自相似性启发的递归编码器-解码器。与传统的具有顺序下采样的CNN不同,FDN使用重复的编码器-解码器嵌套与跳跃连接,以捕获细粒度的细节和长程运动模式。训练目标基于使用全变分(TV)正则化的经典变分公式。具体来说,我们最小化一个能量泛函,该泛函结合了$L^1$和$L^2$数据保真项以强制亮度恒定性,以及一个TV项,该TV项促进空间平滑性和相干流场。在合成和基准数据集上的实验表明,FractalPINN-Flow产生准确、平滑和边缘保持的光流场。该模型对于高分辨率数据和注释有限的场景尤其有效。

🔬 方法详解

问题定义:论文旨在解决无监督条件下的稠密光流估计问题。传统光流估计方法通常依赖于大量的ground truth数据进行监督学习,这在实际应用中成本较高。此外,现有方法在处理高分辨率图像时,难以同时捕捉到细粒度的细节和长程的运动模式,导致光流估计精度下降。

核心思路:论文的核心思路是利用分形几何的自相似性,设计一种递归的编码器-解码器网络(FDN),从而在无需ground truth的情况下,学习到图像中的多尺度运动信息。通过重复嵌套的编码器-解码器结构,网络能够有效地捕捉到图像中的细节信息和长程依赖关系,从而提高光流估计的准确性。

技术框架:FractalPINN-Flow的整体框架包含一个分形变形网络(FDN)和一个基于变分法的损失函数。FDN接收两帧连续的灰度图像作为输入,输出稠密光流场。损失函数由数据保真项(L1和L2范数)和全变分(TV)正则化项组成。数据保真项用于约束光流场,使其满足亮度恒定性假设;TV正则化项用于促进光流场的空间平滑性。

关键创新:该论文的关键创新在于提出了分形变形网络(FDN)。与传统的卷积神经网络(CNN)不同,FDN采用递归的编码器-解码器结构,通过重复嵌套的方式,能够有效地捕捉到图像中的多尺度运动信息。此外,FDN还使用了跳跃连接,从而更好地保留了图像中的细节信息。这种分形结构使得网络能够更好地适应不同尺度的运动模式,从而提高光流估计的准确性。

关键设计:FDN的关键设计包括:1) 递归的编码器-解码器结构,通过重复嵌套的方式实现多尺度特征提取;2) 跳跃连接,用于保留图像细节信息;3) 基于L1和L2范数的数据保真项,用于约束光流场满足亮度恒定性假设;4) 全变分(TV)正则化项,用于促进光流场的空间平滑性。损失函数的权重参数需要根据具体数据集进行调整,以达到最佳的光流估计效果。

📊 实验亮点

FractalPINN-Flow在合成和真实数据集上均取得了良好的光流估计效果。尤其在高分辨率图像和标注数据有限的场景下,该方法的性能优于其他无监督光流估计方法。实验结果表明,该方法能够产生准确、平滑且边缘保持的光流场,验证了分形变形网络(FDN)的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、视频监控、机器人导航等领域。在自动驾驶中,光流估计可以帮助车辆感知周围环境的运动信息,从而实现避障和路径规划。在视频监控中,光流估计可以用于检测异常行为和跟踪目标。在机器人导航中,光流估计可以帮助机器人感知自身运动状态和周围环境,从而实现自主导航。

📄 摘要(原文)

We present FractalPINN-Flow, an unsupervised deep learning framework for dense optical flow estimation that learns directly from consecutive grayscale frames without requiring ground truth. The architecture centers on the Fractal Deformation Network (FDN) - a recursive encoder-decoder inspired by fractal geometry and self-similarity. Unlike traditional CNNs with sequential downsampling, FDN uses repeated encoder-decoder nesting with skip connections to capture both fine-grained details and long-range motion patterns. The training objective is based on a classical variational formulation using total variation (TV) regularization. Specifically, we minimize an energy functional that combines $L^1$ and $L^2$ data fidelity terms to enforce brightness constancy, along with a TV term that promotes spatial smoothness and coherent flow fields. Experiments on synthetic and benchmark datasets show that FractalPINN-Flow produces accurate, smooth, and edge-preserving optical flow fields. The model is especially effective for high-resolution data and scenarios with limited annotations.