Q-Router: Agentic Video Quality Assessment with Expert Model Routing and Artifact Localization

作者: Shuo Xing, Soumik Dey, Mingyang Wu, Ashirbad Mishra, Naveen Ravipati, Binbin Li, Hansi Wu, Zhengzhong Tu

分类: cs.CV

发布日期: 2025-10-09 (更新: 2025-10-13)

💡 一句话要点

Q-Router：基于专家模型路由和伪影定位的Agentic视频质量评估

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 视频质量评估 Agentic框架 视觉-语言模型 模型路由 伪影定位

📋 核心要点

现有VQA模型在不同视频内容和任务上泛化性差，可解释性有限，且难以扩展到新的应用场景。
Q-Router利用视觉-语言模型作为路由器，动态选择并集成不同的专家模型，以适应不同的视频内容和任务。
实验表明，Q-Router在多个VQA基准测试中达到或超过了SOTA水平，并显著提升了泛化性和可解释性。

📝 摘要（中文）

视频质量评估（VQA）是一项基础的计算机视觉任务，旨在预测给定视频的感知质量，使其与人类的判断相符。现有的VQA模型虽然性能良好，但通常通过直接的分数监督进行训练，存在以下问题：（1）在用户生成内容（UGC）、短视频和AI生成内容（AIGC）等不同内容和任务上的泛化能力较差；（2）可解释性有限；（3）难以扩展到新的用例或内容类型。我们提出了Q-Router，一个用于通用VQA的agentic框架，具有多层模型路由系统。Q-Router集成了各种专家模型，并采用视觉-语言模型（VLM）作为实时路由器，动态推理并集成最合适的专家，这取决于输入视频的语义。我们构建了一个基于计算预算的多层路由系统，其中最重的层涉及特定的时空伪影定位，以提高可解释性。这种agentic设计使Q-Router能够结合专业专家的互补优势，在跨异构视频源和任务中实现灵活性和鲁棒性，从而提供一致的性能。大量的实验表明，Q-Router在各种基准测试中与最先进的VQA模型相匹配或超越，同时大大提高了泛化性和可解释性。此外，Q-Router在基于质量的问答基准测试Q-Bench-Video上表现出色，突显了其作为下一代VQA系统基础的潜力。最后，我们展示了Q-Router能够定位时空伪影，显示出作为后训练视频生成模型奖励函数的潜力。

🔬 方法详解

问题定义：论文旨在解决现有视频质量评估（VQA）模型在泛化性、可解释性和可扩展性方面的不足。现有模型通常难以适应用户生成内容、短视频和AI生成内容等多样化的视频类型，并且缺乏对模型决策过程的解释，限制了其在新的应用场景中的应用。

核心思路：论文的核心思路是构建一个agentic的VQA框架，该框架能够根据输入视频的语义动态地选择和集成不同的专家模型。通过引入视觉-语言模型（VLM）作为路由器，Q-Router能够实时推理并选择最适合当前视频内容的专家模型，从而提高泛化能力和性能。

技术框架：Q-Router的整体架构包含一个多层模型路由系统。第一层根据计算预算选择不同的路由策略。最高层级的路由策略会利用VLM进行时空伪影定位，以提高可解释性。不同的专家模型负责处理不同类型的视频质量问题。VLM路由器根据输入视频的语义信息，动态地选择并集成这些专家模型的输出，最终得到视频质量评估结果。

关键创新：Q-Router的关键创新在于其agentic设计和多层模型路由系统。通过将VLM作为路由器，Q-Router能够根据视频内容动态地选择合适的专家模型，从而提高了模型的泛化能力和适应性。此外，时空伪影定位模块提高了模型的可解释性，使其能够识别视频中存在的质量问题。

关键设计：Q-Router的关键设计包括VLM路由器的选择和训练、专家模型的构建和集成、以及多层路由系统的设计。VLM路由器需要能够准确地理解视频内容并选择合适的专家模型。专家模型需要覆盖各种视频质量问题，并能够提供准确的评估结果。多层路由系统需要根据计算预算和性能要求进行优化。

📊 实验亮点

Q-Router在多个VQA基准测试中取得了与SOTA模型相当或更优的性能，同时显著提高了泛化性和可解释性。在Q-Bench-Video基准测试中表现出色，验证了其在质量问答方面的潜力。此外，Q-Router能够有效地定位视频中的时空伪影，为视频质量分析提供了新的手段。

🎯 应用场景

Q-Router可应用于视频监控、视频会议、在线视频平台等领域，用于评估视频质量、优化视频编码和传输策略，并提高用户体验。此外，Q-Router还可以作为视频生成模型的奖励函数，用于指导生成更高质量的视频内容。该研究有望推动下一代VQA系统的发展。

📄 摘要（原文）

Video quality assessment (VQA) is a fundamental computer vision task that aims to predict the perceptual quality of a given video in alignment with human judgments. Existing performant VQA models trained with direct score supervision suffer from (1) poor generalization across diverse content and tasks, ranging from user-generated content (UGC), short-form videos, to AI-generated content (AIGC), (2) limited interpretability, and (3) lack of extensibility to novel use cases or content types. We propose Q-Router, an agentic framework for universal VQA with a multi-tier model routing system. Q-Router integrates a diverse set of expert models and employs vision--language models (VLMs) as real-time routers that dynamically reason and then ensemble the most appropriate experts conditioned on the input video semantics. We build a multi-tiered routing system based on the computing budget, with the heaviest tier involving a specific spatiotemporal artifacts localization for interpretability. This agentic design enables Q-Router to combine the complementary strengths of specialized experts, achieving both flexibility and robustness in delivering consistent performance across heterogeneous video sources and tasks. Extensive experiments demonstrate that Q-Router matches or surpasses state-of-the-art VQA models on a variety of benchmarks, while substantially improving generalization and interpretability. Moreover, Q-Router excels on the quality-based question answering benchmark, Q-Bench-Video, highlighting its promise as a foundation for next-generation VQA systems. Finally, we show that Q-Router capably localizes spatiotemporal artifacts, showing potential as a reward function for post-training video generation models.

Q-Router: Agentic Video Quality Assessment with Expert Model Routing and Artifact Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册