DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining
作者: Shuning Sun, Jialang Lu, Xiang Chen, Jichao Wang, Dianjie Lu, Guijuan Zhang, Guangwei Gao, Zhuoran Zheng
分类: cs.CV
发布日期: 2025-09-26
💡 一句话要点
DeLiVR:利用时空Lie群微分偏置实现高效视频去雨
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频去雨 Lie群 时空一致性 注意力机制 几何变换
📋 核心要点
- 现有视频去雨方法依赖光流或启发式对齐,计算量大且鲁棒性不足,难以处理相机姿态变化带来的帧间不匹配。
- DeLiVR通过将时空Lie群微分偏置注入网络注意力,利用Lie群表示连续几何变换的优势,增强时空一致性。
- 实验结果表明,DeLiVR在公开数据集上表现出色,验证了其在视频去雨任务中的有效性。
📝 摘要(中文)
在野外拍摄的视频通常会受到雨痕、模糊和噪声的影响。此外,即使相机姿态的微小变化也会放大帧间不匹配和时间伪影。现有方法依赖于光流或启发式对齐,这些方法计算成本高且鲁棒性较差。为了解决这些挑战,Lie群提供了一种表示连续几何变换的原则性方法,使其非常适合于在视频建模中强制执行空间和时间一致性。基于这一洞察,我们提出DeLiVR,一种高效的视频去雨方法,它将时空Lie群微分偏置直接注入到网络的注意力分数中。具体来说,该方法引入了两个互补的组件。首先,一个旋转有界的Lie相对偏置使用一个紧凑的预测模块来预测每一帧的平面内角度,其中归一化的坐标被旋转并与基本坐标进行比较,以在特征聚合之前实现几何一致的对齐。其次,一个微分群位移计算相邻帧之间的角度差,以估计速度。这种偏置计算结合了时间衰减和注意力掩码,以关注帧间关系,同时精确匹配雨痕的方向。大量的实验结果证明了我们方法在公开基准上的有效性。
🔬 方法详解
问题定义:论文旨在解决视频去雨问题,尤其是在相机存在运动的情况下,传统方法依赖光流或启发式对齐,计算复杂度高,且容易受到运动估计误差的影响,导致去雨效果不佳,并产生时间伪影。现有方法难以在效率和鲁棒性之间取得平衡。
核心思路:论文的核心思路是利用Lie群来表示视频帧之间的几何变换,并将其作为先验知识(偏置)注入到网络的注意力机制中。Lie群能够以一种连续且参数化的方式描述旋转和平移等变换,从而更好地建模帧间关系,并提高去雨网络的时空一致性。通过将Lie群信息融入注意力机制,网络可以更有效地关注相关的帧间信息,从而提高去雨效果。
技术框架:DeLiVR的整体框架包含两个主要模块:旋转有界的Lie相对偏置模块和微分群位移模块。旋转有界的Lie相对偏置模块用于预测每一帧的平面内旋转角度,从而实现几何一致的帧对齐。微分群位移模块用于计算相邻帧之间的角度差,以估计速度,并结合时间衰减和注意力掩码,以关注帧间关系,同时精确匹配雨痕的方向。这两个模块共同作用,将时空Lie群微分偏置注入到网络的注意力分数中,从而提高去雨效果。
关键创新:该论文的关键创新在于将Lie群理论引入到视频去雨任务中,并提出了一种新的时空Lie群微分偏置方法。与传统方法相比,该方法能够更有效地建模帧间几何变换,并提高去雨网络的时空一致性。此外,该方法还具有计算效率高的优点,使其能够应用于实际的视频去雨场景。
关键设计:旋转有界的Lie相对偏置模块使用一个紧凑的预测模块来预测每一帧的平面内角度,其中归一化的坐标被旋转并与基本坐标进行比较,以在特征聚合之前实现几何一致的对齐。微分群位移模块使用时间衰减和注意力掩码来关注帧间关系,同时精确匹配雨痕的方向。损失函数方面,论文可能采用了常见的图像重建损失,例如L1损失或L2损失,以及可能的正则化项来约束Lie群参数。
📊 实验亮点
论文通过在公开数据集上进行大量实验,验证了DeLiVR的有效性。具体性能数据未知,但摘要中提到DeLiVR在公开基准上表现出色,表明其在视频去雨任务中具有显著的优势。与现有方法相比,DeLiVR能够更有效地去除雨痕,并减少时间伪影,从而提高视频质量。
🎯 应用场景
DeLiVR在视频监控、自动驾驶、电影制作等领域具有广泛的应用前景。在视频监控中,它可以提高雨天环境下的视频清晰度,从而提高目标检测和跟踪的准确性。在自动驾驶中,它可以提高雨天环境下的感知能力,从而提高驾驶安全性。在电影制作中,它可以用于去除雨天拍摄的视频中的雨痕,从而提高视频质量。
📄 摘要(原文)
Videos captured in the wild often suffer from rain streaks, blur, and noise. In addition, even slight changes in camera pose can amplify cross-frame mismatches and temporal artifacts. Existing methods rely on optical flow or heuristic alignment, which are computationally expensive and less robust. To address these challenges, Lie groups provide a principled way to represent continuous geometric transformations, making them well-suited for enforcing spatial and temporal consistency in video modeling. Building on this insight, we propose DeLiVR, an efficient video deraining method that injects spatiotemporal Lie-group differential biases directly into attention scores of the network. Specifically, the method introduces two complementary components. First, a rotation-bounded Lie relative bias predicts the in-plane angle of each frame using a compact prediction module, where normalized coordinates are rotated and compared with base coordinates to achieve geometry-consistent alignment before feature aggregation. Second, a differential group displacement computes angular differences between adjacent frames to estimate a velocity. This bias computation combines temporal decay and attention masks to focus on inter-frame relationships while precisely matching the direction of rain streaks. Extensive experimental results demonstrate the effectiveness of our method on publicly available benchmarks.