Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

📄 arXiv: 2603.04128v1 📥 PDF

作者: Dongnuan Cai, Henghui Du, Chang Zhou, Xi Chen, Dan Guo, Hongyuan Zhang, Xuelong Li, Di Hu

分类: cs.CV, cs.AI, cs.MM

发布日期: 2026-03-04


💡 一句话要点

Crab$^{+}$:通过显式协作实现可扩展的统一音视频场景理解模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频场景理解 多模态学习 指令调优 负迁移 参数高效微调

📋 核心要点

  1. 传统多任务音视频模型存在负迁移问题,导致部分任务性能下降,源于任务异构性。
  2. Crab$^{+}$通过构建AV-UIE v2数据集和设计I-LoRA模块,从数据和模型层面显式建模任务间关系,解决异构性问题。
  3. 实验表明,Crab$^{+}$在多项任务上超越了单任务模型,实现了正迁移,并在多个基准测试中表现出色。

📝 摘要(中文)

本文提出Crab$^{+}$,一个可扩展的统一音视频场景理解模型,旨在解决多模态智能中音视频大型语言模型(AV-LLM)在统一场景理解方面的问题。研究发现,传统的多任务统一方法存在严重的负迁移,约55%的任务性能下降。作者认为这是由于音视频任务异构性导致的,表现为任务粒度差异和能力需求不同,从而在联合训练下产生负干扰。为了解决这个问题,Crab$^{+}$从数据和模型两个角度出发,通过显式协作来应对任务异构性。在数据方面,引入了AV-UIE v2,一个包含约222K样本的综合性音视频统一指令调优数据集,涵盖17个数据集和7个任务,使模型能够捕捉不同粒度级别的跨任务关系。在模型方面,设计了一个统一的接口来对齐异构任务形式,并提出了交互感知LoRA (I-LoRA),通过动态路由显式地建模任务间的关系,协调不同的音视频交互模式,从而减轻参数干扰。实验结果表明,Crab$^{+}$覆盖的任务范围比现有的统一模型更广,并在各种基准测试中优于专门的模型。成功扭转了负迁移的趋势,在近88%的任务中实现了正迁移,即多任务学习超过了单任务基线。这些结果在不同的AV-LLM范式中都成立,并通过深入的可视化得到了验证,使Crab$^{+}$成为迈向整体音视频场景理解的坚实一步。

🔬 方法详解

问题定义:现有音视频大型语言模型在进行多任务学习时,由于不同任务之间存在粒度差异和能力需求的不同,导致联合训练时出现负迁移现象,即某些任务的性能反而下降。这限制了模型在统一框架下处理多种音视频任务的能力。

核心思路:通过显式地建模不同任务之间的关系,缓解任务异构性带来的负面影响。具体而言,从数据和模型两个层面入手,构建包含丰富跨任务关系的数据集,并设计能够感知任务间交互的模块,从而实现更有效的多任务学习。

技术框架:Crab$^{+}$的整体框架包含两个主要组成部分:AV-UIE v2数据集和I-LoRA模块。AV-UIE v2数据集是一个统一的指令调优数据集,包含了多个音视频任务,并显式地标注了任务间的推理过程。I-LoRA模块则是一个基于LoRA的参数高效微调方法,它通过动态路由机制来建模不同任务之间的交互关系,从而协调不同的音视频交互模式。

关键创新:关键创新在于提出了Interaction-aware LoRA (I-LoRA),它显式地建模了任务间的关系,并利用动态路由机制来协调不同的音视频交互模式。与传统的LoRA方法不同,I-LoRA能够根据不同任务的特点,动态地调整参数的更新方向,从而避免了参数干扰,提高了多任务学习的效率。

关键设计:AV-UIE v2数据集的设计关键在于覆盖了多种音视频任务,并显式地标注了任务间的推理过程。I-LoRA模块的关键设计在于动态路由机制,它通过一个可学习的路由矩阵来控制不同任务之间的信息传递。损失函数方面,采用了标准的交叉熵损失函数,并对不同任务的损失进行了加权,以平衡不同任务之间的学习难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Crab$^{+}$在多个音视频任务上都取得了显著的性能提升。与单任务模型相比,Crab$^{+}$在近88%的任务中实现了正迁移。此外,Crab$^{+}$在多个基准测试中也优于现有的统一模型,例如在AudioCaps数据集上取得了state-of-the-art的结果。可视化结果表明,I-LoRA模块能够有效地建模任务间的关系,并协调不同的音视频交互模式。

🎯 应用场景

Crab$^{+}$模型可应用于智能助手、视频监控、自动驾驶等领域。例如,在智能助手中,它可以理解用户的音视频指令,并执行相应的操作;在视频监控中,它可以识别异常事件,并发出警报;在自动驾驶中,它可以感知周围环境,并做出相应的决策。该研究有助于提升多模态场景理解能力,推动人工智能技术在实际场景中的应用。

📄 摘要(原文)

Developing Audio-Visual Large Language Models (AV-LLMs) for unified scene understanding is pivotal in multimodal intelligence. While instruction tuning enables pre-trained models with multi-task abilities, we observe that conventional multi-task unification methods often suffer from severe negative transfer, where nearly 55% of tasks degrade compared to single-task training. We attribute this phenomenon to audio-visual task heterogeneity, characterized by disparate task granularity and divergent capability demands, which lead to negative interference under joint training. To tackle this, we present Crab$^{+}$, a scalable and unified audio-visual scene understanding model that addresses task heterogeneity through explicit cooperation from both data and model perspectives. On the data side, we introduce AV-UIE v2, a comprehensive Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning processes. It contains approximately 222K samples spanning 17 datasets and 7 tasks, enabling the model to capture cross-task relationships at different levels of granularity. On the model side, we design a unified interface to align heterogeneous task formulations, and propose Interaction-aware LoRA (I-LoRA), which explicitly models inter-task relationships via dynamic routing to coordinate distinct audio-visual interaction patterns, mitigating parameter interference. Extensive experiments show Crab$^{+}$ covers broader tasks than existing unified models while outperforming specialized models on various benchmarks. We successfully reverse the negative transfer trend, achieving positive transfer where multi-task learning surpasses single-task baselines in nearly 88% of tasks. These results hold across diverse AV-LLM paradigms and are validated through in-depth visualization, positioning Crab$^{+}$ as a robust step towards holistic audio-visual scene understanding.