Process Over Outcome: Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection

作者: Yuchen Zhang, Yaxiong Wang, Kecheng Han, Yujiao Wu, Lianwei Wu, Li Zhu, Zhedong Zheng

分类: cs.CV

发布日期: 2026-03-02

💡 一句话要点

提出REFORM框架，通过推理过程建模提升多模态篡改检测的泛化性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态篡改检测 取证推理 过程建模 课程学习 强化学习 泛化能力 ROM数据集

📋 核心要点

现有篡改检测方法侧重于结果分类，缺乏可解释性，且易过拟合，难以泛化到未知的篡改模式。
REFORM框架通过推理过程建模，而非结果拟合，学习取证依据，对齐推理判断，并强化逻辑一致性。
实验表明，REFORM在多个数据集上取得了SOTA性能，显著提升了多模态篡改检测的泛化能力。

📝 摘要（中文）

生成式AI的进步显著提高了多模态媒体篡改的真实性，对篡改检测构成重大挑战。现有的篡改检测和定位方法主要侧重于结果导向监督下的篡改类型分类，缺乏可解释性，且容易过拟合表面伪影。本文认为，通用检测需要结合显式的取证推理，而非仅对有限的篡改类型进行分类，后者无法推广到未知的篡改模式。为此，我们提出了REFORM，一个推理驱动的框架，将学习从结果拟合转变为过程建模。REFORM采用三阶段课程学习，首先诱导取证依据，然后将推理与最终判断对齐，最后通过强化学习完善逻辑一致性。为了支持这种范式，我们引入了ROM，一个具有丰富推理标注的大规模数据集。大量实验表明，REFORM建立了新的最先进性能，具有卓越的泛化能力，在ROM上达到81.52%的ACC，在DGM4上达到76.65%的ACC，在MMFakeBench上达到74.9的F1。

🔬 方法详解

问题定义：现有的多模态篡改检测方法主要依赖于对篡改类型进行分类，这种方法是结果导向的，缺乏可解释性，并且容易过拟合训练数据中的表面特征。当面对未知的篡改模式时，这些方法往往表现不佳，泛化能力不足。因此，需要一种能够进行推理，并能够识别篡改过程的方法。

核心思路：REFORM的核心思路是将篡改检测问题转化为一个推理过程建模的问题。通过显式地学习取证依据，并将这些依据与最终的判断对齐，REFORM能够更好地理解篡改的本质，从而提高泛化能力。这种方法模拟了人类专家进行取证分析的过程，更加注重过程的合理性，而非仅仅关注最终的结果。

技术框架：REFORM框架包含三个主要阶段：1) 取证依据诱导：通过学习识别图像和文本中的关键证据，生成取证依据。2) 推理与判断对齐：将生成的取证依据与最终的篡改判断对齐，确保推理过程与判断结果一致。3) 逻辑一致性强化：使用强化学习来进一步完善推理过程的逻辑一致性，避免出现矛盾或不合理的推理。

关键创新：REFORM的关键创新在于将篡改检测问题转化为一个推理过程建模的问题，并采用三阶段课程学习策略来逐步提升模型的推理能力。与现有方法相比，REFORM更加注重过程的合理性和可解释性，从而提高了泛化能力。此外，ROM数据集的引入也为研究提供了更丰富的推理标注。

关键设计：REFORM使用了预训练的多模态模型来提取图像和文本特征。在取证依据诱导阶段，使用了注意力机制来选择关键的证据。在推理与判断对齐阶段，使用了对比学习来对齐推理过程和判断结果。在逻辑一致性强化阶段，使用了策略梯度算法来优化推理过程的逻辑一致性。损失函数包括分类损失、对比损失和强化学习奖励。

🖼️ 关键图片

📊 实验亮点

REFORM在ROM数据集上取得了81.52%的准确率，在DGM4数据集上取得了76.65%的准确率，在MMFakeBench数据集上取得了74.9的F1值。这些结果表明，REFORM在多模态篡改检测任务上取得了显著的性能提升，并且具有良好的泛化能力。相较于现有方法，REFORM在多个数据集上均取得了SOTA结果。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、新闻真实性验证、金融欺诈检测等领域。通过提高多模态篡改检测的准确性和泛化性，有助于减少虚假信息的传播，维护社会稳定和公共利益。未来，该技术可进一步扩展到视频篡改检测、语音合成检测等领域。

📄 摘要（原文）

Recent advances in generative AI have significantly enhanced the realism of multimodal media manipulation, thereby posing substantial challenges to manipulation detection. Existing manipulation detection and grounding approaches predominantly focus on manipulation type classification under result-oriented supervision, which not only lacks interpretability but also tends to overfit superficial artifacts. In this paper, we argue that generalizable detection requires incorporating explicit forensic reasoning, rather than merely classifying a limited set of manipulation types, which fails to generalize to unseen manipulation patterns. To this end, we propose REFORM, a reasoning-driven framework that shifts learning from outcome fitting to process modeling. REFORM adopts a three-stage curriculum that first induces forensic rationales, then aligns reasoning with final judgments, and finally refines logical consistency via reinforcement learning. To support this paradigm, we introduce ROM, a large-scale dataset with rich reasoning annotations. Extensive experiments show that REFORM establishes new state-of-the-art performance with superior generalization, achieving 81.52% ACC on ROM, 76.65% ACC on DGM4, and 74.9 F1 on MMFakeBench.

Process Over Outcome: Cultivating Forensic Reasoning for Generalizable Multimodal Manipulation Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理