Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model
作者: Yuan Wang, Borui Liao, Huijuan Huang, Jinda Lu, Ouxiang Li, Kuien Liu, Meng Wang, Xiang Wang
分类: cs.CV
发布日期: 2026-01-07
💡 一句话要点
提出REACT:基于帧奖励模型的生成视频结构扭曲评估框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频生成 奖励模型 结构扭曲 视频质量评估 强化学习
📋 核心要点
- 现有视频奖励模型忽略了生成视频中物体外观和交互等结构扭曲问题。
- REACT通过帧级别奖励模型,结合人工标注和CoT合成数据,评估视频结构扭曲。
- 实验表明REACT能有效评估结构扭曲,补充现有模型,实现准确评估和归因分析。
📝 摘要(中文)
本文提出了一种名为REACT的帧级别奖励模型,专门用于评估生成视频中的结构扭曲。现有视频奖励模型通常忽略了异常物体外观和交互等关键结构扭曲,而这些扭曲会降低生成视频的整体质量。REACT通过推理视频帧来分配逐点分数和归因标签,从而识别扭曲。为了支持REACT的训练,作者构建了一个大规模的人工偏好数据集,该数据集基于提出的结构扭曲分类法进行标注,并使用高效的思维链(CoT)合成管道生成额外数据。REACT采用两阶段训练框架:(1) 使用掩码损失进行监督微调,以注入领域知识;(2) 使用群体相对策略优化(GRPO)和成对奖励进行强化学习,以增强推理能力并将输出分数与人类偏好对齐。在推理过程中,引入了一种动态采样机制,以关注最可能出现扭曲的帧。此外,作者还提出了REACT-Bench,这是一个用于生成视频扭曲评估的基准。实验结果表明,REACT能够有效评估结构扭曲,补充了现有的奖励模型,并实现了准确的定量评估和可解释的归因分析。
🔬 方法详解
问题定义:现有文本到视频(T2V)生成模型在视觉质量、运动质量和文本对齐方面取得了显著进展,但常常忽略了关键的结构扭曲,例如异常的物体外观和交互,这些扭曲会严重影响生成视频的质量。现有奖励模型无法有效识别和评估这些结构扭曲,导致生成视频的质量难以保证。
核心思路:REACT的核心思路是构建一个帧级别的奖励模型,通过逐帧分析视频内容,识别并评估其中的结构扭曲。该模型通过学习人类对结构扭曲的偏好,能够更准确地判断生成视频的质量。通过引入动态采样机制,REACT能够更有效地关注可能存在扭曲的帧,从而提高评估效率。
技术框架:REACT的整体框架包括数据构建、模型训练和推理三个主要阶段。数据构建阶段包括人工标注数据集和CoT合成数据。模型训练阶段采用两阶段训练策略:首先使用监督微调注入领域知识,然后使用强化学习优化推理能力。推理阶段使用动态采样机制关注可能存在扭曲的帧。
关键创新:REACT的关键创新在于其帧级别的奖励模型设计,以及针对结构扭曲的专门优化。与现有奖励模型相比,REACT更关注视频内容的结构一致性,能够更准确地评估生成视频的质量。此外,REACT提出的CoT合成数据方法能够有效扩充训练数据,提高模型的泛化能力。
关键设计:REACT的训练过程包含两个阶段。第一阶段是监督微调,使用掩码损失函数,目的是让模型学习到关于结构扭曲的先验知识。第二阶段是强化学习,使用Group Relative Policy Optimization (GRPO) 算法和成对奖励,目的是让模型的输出分数与人类偏好对齐。动态采样机制根据帧的特征,自适应地选择需要评估的帧,从而提高评估效率。具体参数设置和网络结构等细节在论文中有更详细的描述(未知)。
📊 实验亮点
REACT在REACT-Bench基准测试中表现出色,能够有效评估生成视频中的结构扭曲,并补充现有奖励模型。实验结果表明,REACT实现了准确的定量评估和可解释的归因分析,证明了其在生成视频质量评估方面的有效性。具体的性能数据和对比基线在论文中有更详细的描述(未知)。
🎯 应用场景
REACT可应用于提升文本到视频生成模型的质量,通过自动评估生成视频的结构一致性,指导模型生成更符合人类期望的视频内容。此外,REACT还可用于视频质量评估、视频内容审核等领域,具有广泛的应用前景和实际价值。未来,REACT可以进一步扩展到其他类型的视频生成任务,例如图像到视频生成、视频编辑等。
📄 摘要(原文)
Recent advances in video reward models and post-training strategies have improved text-to-video (T2V) generation. While these models typically assess visual quality, motion quality, and text alignment, they often overlook key structural distortions, such as abnormal object appearances and interactions, which can degrade the overall quality of the generative video. To address this gap, we introduce REACT, a frame-level reward model designed specifically for structural distortions evaluation in generative videos. REACT assigns point-wise scores and attribution labels by reasoning over video frames, focusing on recognizing distortions. To support this, we construct a large-scale human preference dataset, annotated based on our proposed taxonomy of structural distortions, and generate additional data using a efficient Chain-of-Thought (CoT) synthesis pipeline. REACT is trained with a two-stage framework: ((1) supervised fine-tuning with masked loss for domain knowledge injection, followed by (2) reinforcement learning with Group Relative Policy Optimization (GRPO) and pairwise rewards to enhance reasoning capability and align output scores with human preferences. During inference, a dynamic sampling mechanism is introduced to focus on frames most likely to exhibit distortion. We also present REACT-Bench, a benchmark for generative video distortion evaluation. Experimental results demonstrate that REACT complements existing reward models in assessing structutal distortion, achieving both accurate quantitative evaluations and interpretable attribution analysis.