Reasoning-Enhanced Domain-Adaptive Pretraining of Multimodal Large Language Models for Short Video Content Governance

📄 arXiv: 2509.21486v3 📥 PDF

作者: Zixuan Wang, Yu Sun, Hongwei Wang, Baoyu Jing, Xiang Shen, Xin Dong, Zhuolin Hao, Hongyu Xiong, Yang Song

分类: cs.CV

发布日期: 2025-09-25 (更新: 2025-11-11)

备注: Camera Ready for EMNLP 2025

DOI: 10.18653/v1/2025.emnlp-industry.77


💡 一句话要点

提出推理增强的领域自适应多模态大语言模型预训练方法,用于短视频内容治理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 短视频内容治理 多模态大语言模型 领域自适应预训练 推理增强 视觉问答

📋 核心要点

  1. 现有短视频内容审核方法依赖于针对特定问题训练的小模型,需要大量标注数据且泛化性差。
  2. 论文提出一种推理增强的多模态大语言模型预训练方法,通过领域自适应和推理能力提升,实现统一的不当内容检测。
  3. 实验表明,该方法在零样本和监督微调设置下均显著提升了性能,并展现出对新问题的泛化能力。

📝 摘要(中文)

短视频平台快速发展,不当内容的识别变得至关重要。现有方法通常为每种问题类型训练独立的小型分类模型,这需要大量人工标注数据,且缺乏跨问题泛化能力。本文提出了一种推理增强的多模态大语言模型(MLLM)预训练范式,用于统一的不当内容检测。为了解决短视频内容与MLLM原始预训练数据之间的分布差距以及复杂的问题定义,我们引入了三个有针对性的预训练任务:(1)Caption,增强MLLM对视频细节的感知;(2)视觉问答(VQA),加深MLLM对问题定义和标注指南的理解;(3)思维链(CoT),增强MLLM的推理能力。实验结果表明,我们的预训练方法显著提高了MLLM在零样本和监督微调(SFT)设置中的性能。此外,我们的预训练模型还展示了对新兴的、以前未见过的问题的强大泛化能力。

🔬 方法详解

问题定义:当前短视频平台的内容审核面临挑战,主要体现在两个方面:一是需要处理各种各样的不当内容类型,二是现有方法通常针对每种类型训练独立的分类模型,导致需要大量的人工标注数据,并且模型之间缺乏泛化能力。此外,短视频内容与现有MLLM的预训练数据存在分布差异,使得直接应用效果不佳。

核心思路:论文的核心思路是通过领域自适应预训练来提升MLLM在短视频内容审核任务上的性能。具体来说,通过设计三个预训练任务,使MLLM能够更好地理解视频内容、问题定义和标注指南,并具备更强的推理能力,从而实现统一的不当内容检测。

技术框架:整体框架包括三个阶段:首先,利用Caption任务增强MLLM对视频细节的感知;其次,通过VQA任务加深MLLM对问题定义和标注指南的理解;最后,使用CoT任务增强MLLM的推理能力。这三个任务共同作用,使得MLLM能够更好地适应短视频内容审核任务。

关键创新:论文的关键创新在于提出了一个推理增强的领域自适应预训练范式,该范式针对短视频内容审核任务的特点,设计了三个定制化的预训练任务,有效地解决了数据分布差异和问题定义复杂的问题。与传统的针对特定问题训练小模型的方法相比,该方法具有更强的泛化能力和更高的效率。

关键设计:Caption任务使用视频帧和对应的文本描述进行训练,目标是让MLLM能够根据视频内容生成准确的描述。VQA任务使用包含问题和答案的视频片段进行训练,问题围绕不当内容定义和标注指南展开,目标是让MLLM能够理解问题定义并给出正确的答案。CoT任务则通过引入中间推理步骤,引导MLLM进行逐步推理,从而增强其推理能力。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该预训练方法显著提高了MLLM在短视频内容审核任务上的性能。具体数据未知,但论文强调在零样本和监督微调设置下均取得了显著提升,并且模型展现出对新兴问题的强大泛化能力。与现有方法相比,该方法在效率和泛化性方面具有明显优势。

🎯 应用场景

该研究成果可应用于各种短视频平台的内容审核,能够自动识别和过滤不当内容,提高内容审核效率,降低人工审核成本。此外,该方法还可以扩展到其他多模态内容审核场景,例如图像、直播等,具有广泛的应用前景。

📄 摘要(原文)

Short video platforms are evolving rapidly, making the identification of inappropriate content increasingly critical. Existing approaches typically train separate and small classification models for each type of issue, which requires extensive human-labeled data and lacks cross-issue generalization. We propose a reasoning-enhanced multimodal large language model (MLLM) pretraining paradigm for unified inappropriate content detection. To address the distribution gap between short video content and the original pretraining data of MLLMs, as well as the complex issue definitions, we introduce three targeted pretraining tasks: (1) \textit{Caption}, to enhance the MLLM's perception of video details; (2) \textit{Visual Question Answering (VQA)}, to deepen the MLLM's understanding of issue definitions and annotation guidelines; (3) \textit{Chain-of-Thought (CoT)}, to enhance the MLLM's reasoning capability. Experimental results show that our pretraining approach significantly improves the MLLM's performance in both zero-shot and supervised fine-tuning (SFT) settings. In addition, our pretrained model demonstrates strong generalization capabilities to emergent, previously unseen issues.