Physics-Informed Video Flare Synthesis and Removal Leveraging Motion Independence between Flare and Scene
作者: Junqiao Wang, Yuanfei Huang, Hua Huang
分类: cs.CV
发布日期: 2025-12-12
💡 一句话要点
提出一种基于物理信息的视频光晕合成与去除方法,解决光晕与场景运动独立性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 视频光晕去除 物理信息建模 Mamba 注意力机制 时空建模
📋 核心要点
- 视频光晕去除面临光晕、光源和场景内容复杂且相互独立的运动挑战,导致现有方法易产生闪烁和伪影。
- 提出一种基于物理信息的动态光晕合成流程和视频光晕去除网络,利用Mamba建模长程时空依赖,无需多帧对齐。
- 构建了首个视频光晕数据集,实验表明该方法在合成和真实视频上均优于现有方法,能有效去除动态光晕。
📝 摘要(中文)
本文提出了一种基于物理信息的动态光晕合成流程,该流程利用光流模拟光源运动,并对散射和反射光晕的时间行为进行建模。同时,设计了一个视频光晕去除网络,该网络采用注意力模块来空间抑制光晕区域,并结合基于Mamba的时间建模组件来捕获长程时空依赖关系。这种运动独立的时空表示有效地消除了多帧对齐的需求,减轻了光晕和场景内容之间的时间混叠,从而提高了视频光晕去除性能。在此基础上,构建了第一个视频光晕数据集,以全面评估本文方法,该数据集包括大量的合成配对视频和从互联网收集的真实视频,以评估泛化能力。大量实验表明,本文方法在真实和合成视频上始终优于现有的基于视频的修复和基于图像的光晕去除方法,有效地去除了动态光晕,同时保持了光源的完整性并保持了场景的时空一致性。
🔬 方法详解
问题定义:视频光晕去除相较于图像光晕去除更具挑战性,因为视频中光晕、光源和场景内容之间存在复杂且相互独立的运动。现有方法难以有效处理这种运动独立性,导致去除后的视频出现闪烁和伪影,影响视觉质量。
核心思路:本文的核心思路是利用物理信息建模光晕的动态生成过程,并设计一个能够有效捕捉光晕和场景之间运动独立性的视频光晕去除网络。通过模拟光晕的物理形成过程,可以生成更逼真的训练数据,从而提高网络的泛化能力。同时,通过引入注意力机制和Mamba时间建模组件,网络能够更好地理解光晕的时空特性,从而更准确地去除光晕。
技术框架:该方法主要包含两个部分:基于物理信息的动态光晕合成流程和视频光晕去除网络。光晕合成流程首先利用光流模拟光源的运动,然后分别对散射和反射光晕的时间行为进行建模。视频光晕去除网络则采用编码器-解码器结构,其中编码器部分使用卷积神经网络提取特征,解码器部分使用注意力模块抑制光晕区域,并使用基于Mamba的时间建模组件捕捉长程时空依赖关系。
关键创新:该方法最重要的创新点在于其运动独立的时空表示。通过模拟光晕的物理形成过程,并利用注意力机制和Mamba时间建模组件,网络能够有效地捕捉光晕和场景之间的运动独立性,从而避免了多帧对齐的需求,减轻了光晕和场景内容之间的时间混叠。
关键设计:在光晕合成流程中,使用光流来模拟光源的运动轨迹。在视频光晕去除网络中,注意力模块用于空间抑制光晕区域,Mamba模块用于建模长程时空依赖关系。损失函数可能包含L1损失、感知损失和对抗损失等,以保证去除光晕后的视频在视觉上更加自然。
📊 实验亮点
实验结果表明,该方法在合成和真实视频上均优于现有的视频修复和图像光晕去除方法。具体而言,在合成数据集上,该方法在PSNR和SSIM等指标上均取得了显著提升。在真实视频上,该方法也能够有效地去除动态光晕,同时保持光源的完整性和场景的时空一致性,视觉效果明显优于其他方法。
🎯 应用场景
该研究成果可应用于视频监控、自动驾驶、电影制作等领域。在视频监控中,可以去除强光干扰,提高视频的清晰度和可用性。在自动驾驶中,可以提高车辆在复杂光照条件下的感知能力,增强驾驶安全性。在电影制作中,可以用于后期处理,去除不需要的光晕效果,提升影片质量。
📄 摘要(原文)
Lens flare is a degradation phenomenon caused by strong light sources. Existing researches on flare removal have mainly focused on images, while the spatiotemporal characteristics of video flare remain largely unexplored. Video flare synthesis and removal pose significantly greater challenges than in image, owing to the complex and mutually independent motion of flare, light sources, and scene content. This motion independence further affects restoration performance, often resulting in flicker and artifacts. To address this issue, we propose a physics-informed dynamic flare synthesis pipeline, which simulates light source motion using optical flow and models the temporal behaviors of both scattering and reflective flares. Meanwhile, we design a video flare removal network that employs an attention module to spatially suppress flare regions and incorporates a Mamba-based temporal modeling component to capture long range spatio-temporal dependencies. This motion-independent spatiotemporal representation effectively eliminates the need for multi-frame alignment, alleviating temporal aliasing between flares and scene content and thereby improving video flare removal performance. Building upon this, we construct the first video flare dataset to comprehensively evaluate our method, which includes a large set of synthetic paired videos and additional real-world videos collected from the Internet to assess generalization capability. Extensive experiments demonstrate that our method consistently outperforms existing video-based restoration and image-based flare removal methods on both real and synthetic videos, effectively removing dynamic flares while preserving light source integrity and maintaining spatiotemporal consistency of scene.