AV-Unified: A Unified Framework for Audio-visual Scene Understanding

作者: Guangyao Li, Xin Wang, Wenwu Zhu

分类: cs.CV

发布日期: 2026-03-06

备注: Accepted by IEEE Transactions on Multimedia (TMM)

💡 一句话要点

提出AV-Unified统一框架，用于多任务联合学习的音视频场景理解

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 音视频场景理解 多任务学习 统一框架 跨模态融合 时空感知 事件定位 视听问答

📋 核心要点

现有音视频场景理解任务通常独立研究，忽略了任务间的关联，限制了对复杂场景的全面理解。
AV-Unified框架将不同任务的输入输出统一为token序列，并利用多尺度时空感知网络捕获音视频关联。
实验结果表明，AV-Unified在多个音视频基准数据集上表现出色，验证了其在时空任务上的有效性。

📝 摘要（中文）

本文提出AV-Unified，一个统一的框架，旨在实现跨多个音视频场景理解任务的联合学习。现有方法通常独立地探索事件定位、解析、分割和问答等任务，难以全面理解复杂的音视频场景并探索任务间的关系。AV-Unified通过将每个任务的各种输入输出格式标准化为离散token序列，建立共享表示，从而允许单个架构在异构数据集上进行联合训练。考虑到音视频事件的不同时间粒度，设计了一个多尺度时间感知模块来捕获关键线索。同时，为了克服视觉领域中听觉监督的不足，设计了一个基于跨模态指导的空间感知模块，用于建模空间音视频关联。此外，采用特定于任务的文本提示来增强模型的适应性和任务感知能力。在基准数据集（如AVE、LLP、MUSIC-AVQA、VGG-SS和AVS）上的大量实验证明了AV-Unified在时间、空间和时空任务上的有效性。

🔬 方法详解

问题定义：现有音视频场景理解方法通常针对特定任务设计，例如事件定位、解析、分割和问答等，缺乏一个统一的框架来整合这些任务。这种孤立的方法难以捕捉不同任务之间的关联，限制了对复杂音视频场景的全面理解。此外，不同任务的输入输出格式各异，增加了联合训练的难度。

核心思路：AV-Unified的核心思路是将各种音视频场景理解任务统一到一个共享的框架中，通过将不同任务的输入输出转换为离散的token序列，建立一个统一的表示空间。这样，就可以使用单个模型在多个异构数据集上进行联合训练，从而实现跨任务的知识共享和性能提升。此外，该框架还利用跨模态信息来增强模型的感知能力。

技术框架：AV-Unified框架主要包含三个模块：输入输出统一模块、多尺度时空感知网络和任务特定提示模块。首先，输入输出统一模块将不同任务的输入（例如，音频波形、视频帧）和输出（例如，事件标签、分割掩码）转换为离散的token序列。然后，多尺度时空感知网络利用多尺度时间感知模块和跨模态指导的空间感知模块来捕获音视频之间的时空关联。最后，任务特定提示模块通过添加任务相关的文本提示来增强模型的适应性和任务感知能力。

关键创新：AV-Unified的关键创新在于提出了一个统一的框架，能够处理多种不同的音视频场景理解任务。与以往针对特定任务的方法不同，AV-Unified通过将输入输出转换为token序列，实现了跨任务的知识共享和联合训练。此外，该框架还利用跨模态信息来增强模型的感知能力，从而提高了整体性能。

关键设计：在输入输出统一模块中，使用了词汇表将音频和视频特征转换为离散的token序列。多尺度时间感知模块采用了不同时间尺度的卷积核来捕获不同时间粒度的事件。跨模态指导的空间感知模块利用音频特征来指导视觉特征的学习，从而克服了视觉领域中听觉监督的不足。任务特定提示模块使用了预训练的语言模型来生成任务相关的文本提示。

🖼️ 关键图片

📊 实验亮点

AV-Unified在多个音视频基准数据集上取得了显著的性能提升。例如，在AVE数据集上，AV-Unified在事件定位任务上取得了state-of-the-art的结果。在MUSIC-AVQA数据集上，AV-Unified在音视频问答任务上显著优于现有方法。这些实验结果表明，AV-Unified框架在时间、空间和时空任务上都具有很强的竞争力。

🎯 应用场景

AV-Unified框架具有广泛的应用前景，例如智能监控、自动驾驶、虚拟现实和人机交互等领域。它可以用于识别异常事件、理解驾驶环境、创建沉浸式体验和改善用户交互。通过整合多种音视频场景理解任务，AV-Unified可以提供更全面、更准确的场景理解能力，从而为各种应用提供更强大的支持。

📄 摘要（原文）

When humans perceive the world, they naturally integrate multiple audio-visual tasks within dynamic, real-world scenes. However, current works such as event localization, parsing, segmentation and question answering are mostly explored individually, making it challenging to comprehensively understand complex audio-visual scenes and explore inter-task relationships. Hence, we propose \textbf{AV-Unified}, a unified framework that enables joint learning across a wide range of audio-visual scene understanding tasks. AV-Unified standardizes the diverse input-output formats of each task and incorporates a multi-scale spatiotemporal perception network to effectively capture audio-visual associations. Specifically, we unify the inputs and outputs of all supported tasks by converting them into sequences of discrete tokens, establishing a shared representation that allows a single architecture to be trained jointly across heterogeneous varied datasets. Considering the varying temporal granularity of audio-visual events, a multi-scale temporal perception module is designed to capture key cues. Meanwhile, to overcome the lack of auditory supervision in the visual domain, we design a cross-modal guidance-based spatial perception module that models spatial audio-visual associations. Furthermore, task-specific text prompts are employed to enhance the model's adaptability and task-awareness. Extensive experiments on benchmark datasets (e.g., AVE, LLP, MUSIC-AVQA, VGG-SS and AVS) demonstrate the effectiveness of AV-Unified across temporal, spatial, and spatiotemporal tasks.

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理