Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

作者: Dongnuan Cai, Henghui Du, Chang Zhou, Xi Chen, Dan Guo, Hongyuan Zhang, Xuelong Li, Di Hu

分类: cs.CV, cs.AI, cs.MM

发布日期: 2026-03-04

💡 一句话要点

Crab$^{+}$：通过显式协作实现可扩展的统一音视频场景理解模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频场景理解 多模态学习 指令调优 负迁移 参数高效微调

📋 核心要点

传统多任务音视频模型存在负迁移问题，导致部分任务性能下降，源于任务异构性。
Crab$^{+}$通过构建AV-UIE v2数据集和设计I-LoRA模块，从数据和模型层面显式建模任务间关系，解决异构性问题。
实验表明，Crab$^{+}$在多项任务上超越了单任务模型，实现了正迁移，并在多个基准测试中表现出色。

📝 摘要（中文）

本文提出Crab$^{+}$，一个可扩展的统一音视频场景理解模型，旨在解决多模态智能中音视频大型语言模型(AV-LLM)在统一场景理解方面的问题。研究发现，传统的多任务统一方法存在严重的负迁移，约55%的任务性能下降。作者认为这是由于音视频任务异构性导致的，表现为任务粒度差异和能力需求不同，从而在联合训练下产生负干扰。为了解决这个问题，Crab$^{+}$从数据和模型两个角度出发，通过显式协作来应对任务异构性。在数据方面，引入了AV-UIE v2，一个包含约222K样本的综合性音视频统一指令调优数据集，涵盖17个数据集和7个任务，使模型能够捕捉不同粒度级别的跨任务关系。在模型方面，设计了一个统一的接口来对齐异构任务形式，并提出了交互感知LoRA (I-LoRA)，通过动态路由显式地建模任务间的关系，协调不同的音视频交互模式，从而减轻参数干扰。实验结果表明，Crab$^{+}$覆盖的任务范围比现有的统一模型更广，并在各种基准测试中优于专门的模型。成功扭转了负迁移的趋势，在近88%的任务中实现了正迁移，即多任务学习超过了单任务基线。这些结果在不同的AV-LLM范式中都成立，并通过深入的可视化得到了验证，使Crab$^{+}$成为迈向整体音视频场景理解的坚实一步。

🔬 方法详解

问题定义：现有音视频大型语言模型在进行多任务学习时，由于不同任务之间存在粒度差异和能力需求的不同，导致联合训练时出现负迁移现象，即某些任务的性能反而下降。这限制了模型在统一框架下处理多种音视频任务的能力。

核心思路：通过显式地建模不同任务之间的关系，缓解任务异构性带来的负面影响。具体而言，从数据和模型两个层面入手，构建包含丰富跨任务关系的数据集，并设计能够感知任务间交互的模块，从而实现更有效的多任务学习。

技术框架：Crab$^{+}$的整体框架包含两个主要组成部分：AV-UIE v2数据集和I-LoRA模块。AV-UIE v2数据集是一个统一的指令调优数据集，包含了多个音视频任务，并显式地标注了任务间的推理过程。I-LoRA模块则是一个基于LoRA的参数高效微调方法，它通过动态路由机制来建模不同任务之间的交互关系，从而协调不同的音视频交互模式。

关键创新：关键创新在于提出了Interaction-aware LoRA (I-LoRA)，它显式地建模了任务间的关系，并利用动态路由机制来协调不同的音视频交互模式。与传统的LoRA方法不同，I-LoRA能够根据不同任务的特点，动态地调整参数的更新方向，从而避免了参数干扰，提高了多任务学习的效率。

关键设计：AV-UIE v2数据集的设计关键在于覆盖了多种音视频任务，并显式地标注了任务间的推理过程。I-LoRA模块的关键设计在于动态路由机制，它通过一个可学习的路由矩阵来控制不同任务之间的信息传递。损失函数方面，采用了标准的交叉熵损失函数，并对不同任务的损失进行了加权，以平衡不同任务之间的学习难度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Crab$^{+}$在多个音视频任务上都取得了显著的性能提升。与单任务模型相比，Crab$^{+}$在近88%的任务中实现了正迁移。此外，Crab$^{+}$在多个基准测试中也优于现有的统一模型，例如在AudioCaps数据集上取得了state-of-the-art的结果。可视化结果表明，I-LoRA模块能够有效地建模任务间的关系，并协调不同的音视频交互模式。

🎯 应用场景

Crab$^{+}$模型可应用于智能助手、视频监控、自动驾驶等领域。例如，在智能助手中，它可以理解用户的音视频指令，并执行相应的操作；在视频监控中，它可以识别异常事件，并发出警报；在自动驾驶中，它可以感知周围环境，并做出相应的决策。该研究有助于提升多模态场景理解能力，推动人工智能技术在实际场景中的应用。

📄 摘要（原文）

Developing Audio-Visual Large Language Models (AV-LLMs) for unified scene understanding is pivotal in multimodal intelligence. While instruction tuning enables pre-trained models with multi-task abilities, we observe that conventional multi-task unification methods often suffer from severe negative transfer, where nearly 55% of tasks degrade compared to single-task training. We attribute this phenomenon to audio-visual task heterogeneity, characterized by disparate task granularity and divergent capability demands, which lead to negative interference under joint training. To tackle this, we present Crab$^{+}$, a scalable and unified audio-visual scene understanding model that addresses task heterogeneity through explicit cooperation from both data and model perspectives. On the data side, we introduce AV-UIE v2, a comprehensive Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning processes. It contains approximately 222K samples spanning 17 datasets and 7 tasks, enabling the model to capture cross-task relationships at different levels of granularity. On the model side, we design a unified interface to align heterogeneous task formulations, and propose Interaction-aware LoRA (I-LoRA), which explicitly models inter-task relationships via dynamic routing to coordinate distinct audio-visual interaction patterns, mitigating parameter interference. Extensive experiments show Crab$^{+}$ covers broader tasks than existing unified models while outperforming specialized models on various benchmarks. We successfully reverse the negative transfer trend, achieving positive transfer where multi-task learning surpasses single-task baselines in nearly 88% of tasks. These results hold across diverse AV-LLM paradigms and are validated through in-depth visualization, positioning Crab$^{+}$ as a robust step towards holistic audio-visual scene understanding.

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理