Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

作者: Chetwin Low, Weimin Wang, Calder Katyal

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2025-09-30

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Ovi：基于孪生骨干跨模态融合的音视频生成方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频生成 跨模态融合 扩散模型 孪生网络 DiT Transformer 多模态学习

📋 核心要点

现有音视频生成方法依赖复杂的多阶段架构或声音和视觉的顺序合成，缺乏统一性。
Ovi通过孪生DiT模块的块状跨模态融合，将音视频建模为单一生成过程，实现自然同步。
Ovi在大量音视频数据上训练，生成逼真音效和富含情感的语音，制作电影级视频片段。

📝 摘要（中文）

本文提出了一种用于音视频生成的统一范式Ovi，它将两种模态建模为单一的生成过程。通过使用孪生DiT模块的块状跨模态融合，Ovi实现了自然的同步，并消除了对单独流水线或事后对齐的需求。为了促进细粒度的多模态融合建模，我们使用与强大的预训练视频模型相同的架构初始化了一个音频塔。音频塔从头开始在数十万小时的原始音频上进行训练，学习生成逼真的音效，以及传达丰富的说话人身份和情感的语音。通过在海量的视频语料库上，以块状交换时间信息（通过缩放的RoPE嵌入）和语义信息（通过双向交叉注意力）的方式联合训练相同的视频和音频塔，从而实现融合。我们的模型能够进行电影级的视频剪辑制作，具有自然的语音和准确的、上下文匹配的音效。

🔬 方法详解

问题定义：音视频生成任务旨在根据给定的条件（例如文本描述、音乐等）生成与之对应的视频内容，包括视觉画面和声音。现有的方法通常采用多阶段的复杂架构，或者分别生成音频和视频，然后进行后期的对齐和融合，这导致了生成过程的复杂性增加，并且难以保证音视频之间的自然同步。

核心思路：Ovi的核心思路是将音视频生成视为一个统一的生成过程，通过共享的生成模型同时生成音频和视频，从而实现音视频之间的自然同步。为了实现这一目标，Ovi采用了孪生骨干网络结构，分别处理音频和视频信息，并通过跨模态融合模块实现信息交互。

技术框架：Ovi的整体架构包括两个主要的模块：音频塔和视频塔。这两个塔都基于DiT（Diffusion Transformer）架构，并且具有相同的网络结构。音频塔负责生成音频信息，视频塔负责生成视频信息。在训练过程中，音频塔首先在大量的音频数据上进行预训练，学习生成逼真的音效和语音。然后，音频塔和视频塔在大量的音视频数据上进行联合训练，通过跨模态融合模块实现信息交互。跨模态融合模块采用块状结构，在不同的网络层之间进行信息交换。

关键创新：Ovi的关键创新在于以下几个方面：1) 统一的音视频生成范式，将音视频生成视为一个单一的生成过程；2) 孪生骨干网络结构，分别处理音频和视频信息，并通过跨模态融合模块实现信息交互；3) 块状跨模态融合模块，在不同的网络层之间进行信息交换，从而实现细粒度的多模态融合。与现有方法相比，Ovi避免了复杂的多阶段架构和后期的对齐操作，从而简化了生成过程，并提高了音视频之间的同步性。

关键设计：Ovi的关键设计包括：1) 使用DiT作为骨干网络，DiT是一种基于Transformer的扩散模型，具有强大的生成能力；2) 使用缩放的RoPE（Rotary Position Embedding）嵌入来编码时间信息，从而实现音视频之间的时间同步；3) 使用双向交叉注意力机制来实现跨模态融合，从而实现音视频之间的语义对齐；4) 使用大量的音视频数据进行训练，从而提高模型的生成质量。

📊 实验亮点

论文展示了Ovi在生成高质量音视频方面的能力，能够生成具有自然语音和准确音效的电影级视频片段。通过与现有方法的对比，Ovi在音视频同步性和生成质量方面都取得了显著的提升。论文还提供了大量的实验结果和可视化案例，证明了Ovi的有效性和实用性。具体性能数据未知，但从demo效果来看，生成质量较高。

🎯 应用场景

Ovi具有广泛的应用前景，例如电影制作、游戏开发、虚拟现实、广告创意等领域。它可以用于生成具有自然语音和准确音效的电影片段，创建沉浸式的游戏体验，设计引人入胜的广告内容。此外，Ovi还可以用于辅助音视频编辑，例如自动生成背景音乐、添加音效等，从而提高编辑效率。

📄 摘要（原文）

Audio-video generation has often relied on complex multi-stage architectures or sequential synthesis of sound and visuals. We introduce Ovi, a unified paradigm for audio-video generation that models the two modalities as a single generative process. By using blockwise cross-modal fusion of twin-DiT modules, Ovi achieves natural synchronization and removes the need for separate pipelines or post hoc alignment. To facilitate fine-grained multimodal fusion modeling, we initialize an audio tower with an architecture identical to that of a strong pretrained video model. Trained from scratch on hundreds of thousands of hours of raw audio, the audio tower learns to generate realistic sound effects, as well as speech that conveys rich speaker identity and emotion. Fusion is obtained by jointly training the identical video and audio towers via blockwise exchange of timing (via scaled-RoPE embeddings) and semantics (through bidirectional cross-attention) on a vast video corpus. Our model enables cinematic storytelling with natural speech and accurate, context-matched sound effects, producing movie-grade video clips. All the demos, code and model weights are published at https://aaxwaz.github.io/Ovi

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册