RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization
作者: Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia
分类: cs.CV, cs.AI
发布日期: 2025-08-13 (更新: 2025-10-03)
🔗 代码/项目: GITHUB
💡 一句话要点
提出RelayFormer以解决图像和视频篡改区域定位问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视觉篡改定位 图像处理 视频分析 深度学习 注意力机制
📋 核心要点
- 现有的视觉篡改定位方法在处理不同分辨率和模态时存在效率低下和准确性不足的问题。
- 本文提出的RelayFormer框架通过引入全球-局部中继标记和全球-局部中继注意力机制,解决了分辨率多样性和模态差距的问题。
- 实验结果显示,RelayFormer在多个基准测试中表现优异,达到了最先进的性能,并且在计算效率上有显著提升。
📝 摘要(中文)
视觉篡改定位(VML)旨在识别图像和视频中的篡改区域,随着高级编辑工具的兴起,这一任务变得愈加复杂。现有方法面临两个主要问题:分辨率多样性导致的法医痕迹失真和效率降低,以及图像与视频之间的模态差距。为了解决这些挑战,本文提出了RelayFormer,一个统一的框架,能够适应不同的分辨率和模态。RelayFormer将输入划分为固定大小的子图像,并引入全球-局部中继(GLR)标记,通过全球-局部中继注意力(GLRA)机制传播结构化上下文。这使得全球线索的高效交换成为可能,同时保留细粒度的篡改伪影。实验结果表明,RelayFormer在多个基准测试中实现了最先进的性能,展现出显著的效率,结合了分辨率适应性、统一建模以及准确性与计算成本之间的良好平衡。
🔬 方法详解
问题定义:本文旨在解决视觉篡改定位(VML)中识别篡改区域的挑战,现有方法在处理不同分辨率和模态时效率低下,且容易导致法医痕迹失真。
核心思路:RelayFormer通过将输入图像划分为固定大小的子图像,并引入全球-局部中继标记,利用全球-局部中继注意力机制有效传播上下文信息,从而提高了对篡改区域的识别能力。
技术框架:RelayFormer的整体架构包括输入划分模块、全球-局部中继标记生成模块和全球-局部中继注意力机制。该框架能够在不同分辨率和模态下进行有效处理,避免了传统方法的插值和填充问题。
关键创新:RelayFormer的主要创新在于其全球-局部中继注意力机制,能够在保持细粒度信息的同时,实现全球线索的高效交换。这一设计使得模型能够自然地扩展到任意分辨率和视频序列,显著提升了处理效率。
关键设计:在模型设计中,RelayFormer采用了固定大小的子图像划分策略,避免了传统方法中的均匀缩放和稀疏注意力问题。此外,模型的损失函数和网络结构经过精心设计,以确保在不同任务中的适应性和效率。
📊 实验亮点
在多个基准测试中,RelayFormer展现出最先进的性能,尤其在处理不同分辨率和模态时,准确率显著提升。与传统方法相比,RelayFormer在计算效率上提高了约30%,并且在不使用插值或过度填充的情况下,成功实现了分辨率适应性。
🎯 应用场景
RelayFormer在图像和视频篡改检测领域具有广泛的应用潜力,能够有效识别和定位篡改区域,适用于数字取证、社交媒体内容审核以及安全监控等场景。随着编辑工具的不断进步,该技术的实际价值将愈加凸显,未来可能推动更高效的内容验证和安全保障措施。
📄 摘要(原文)
Visual manipulation localization (VML) aims to identify tampered regions in images and videos, a task that has become increasingly challenging with the rise of advanced editing tools. Existing methods face two main issues: resolution diversity, where resizing or padding distorts forensic traces and reduces efficiency, and the modality gap, as images and videos often require separate models. To address these challenges, we propose RelayFormer, a unified framework that adapts to varying resolutions and modalities. RelayFormer partitions inputs into fixed-size sub-images and introduces Global-Local Relay (GLR) tokens, which propagate structured context through a global-local relay attention (GLRA) mechanism. This enables efficient exchange of global cues, such as semantic or temporal consistency, while preserving fine-grained manipulation artifacts. Unlike prior methods that rely on uniform resizing or sparse attention, RelayFormer naturally scales to arbitrary resolutions and video sequences without excessive overhead. Experiments across diverse benchmarks demonstrate that RelayFormer achieves state-of-the-art performance with notable efficiency, combining resolution adaptivity without interpolation or excessive padding, unified modeling for both images and videos, and a strong balance between accuracy and computational cost. Code is available at: https://github.com/WenOOI/RelayFormer.