CL-VISTA: Benchmarking Continual Learning in Video Large Language Models

📄 arXiv: 2604.00677v1 📥 PDF

作者: Haiyang Guo, Yichen Shi, Fei Zhu, Wenzhuo Liu, Hongbo Zhao, Fanhu Zeng, Shijie Ma, Da-Han Wang, Xu-Yao Zhang

分类: cs.CV

发布日期: 2026-04-01

备注: Preprint


💡 一句话要点

提出CL-VISTA基准,用于评估视频大语言模型中的持续学习能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 持续学习 基准测试 灾难性遗忘 多模态学习

📋 核心要点

  1. 现有持续学习基准难以有效评估大规模预训练视频语言模型,存在任务冗余和遗忘不明显的问题。
  2. CL-VISTA基准包含8个多样化任务,覆盖感知、理解和推理,旨在诱导显著的分布偏移和灾难性遗忘。
  3. 通过对10种主流持续学习方法进行评估,揭示了性能、计算效率和内存占用之间的权衡关系。

📝 摘要(中文)

视频大语言模型(Video-LLMs)需要持续学习以适应不断变化的真实世界数据。然而,现有的基准测试不足以评估现代基础模型:许多仍然依赖于没有大规模预训练的模型,并且流行的基准测试通常将单个数据集划分为子任务,导致高任务冗余和预训练的Video-LLMs上可忽略的遗忘。为了解决这些限制,我们提出了CL-VISTA,这是一个为Video-LLMs的持续视频理解量身定制的基准。通过策划涵盖感知、理解和推理的8个不同的任务,CL-VISTA诱导了大量的分布偏移,有效地暴露了灾难性遗忘。为了系统地评估CL方法,我们建立了一个全面的评估框架,包括跨越3个关键维度的6个不同的协议:性能、计算效率和内存占用。值得注意的是,性能维度包含一个通用的视频理解评估,以评估CL方法是否真正增强了基础智能,或者仅仅诱导了特定于任务的过拟合。对10种主流CL方法的广泛基准测试揭示了一个根本的权衡:没有一种方法在所有维度上都实现了普遍的优势。成功缓解灾难性遗忘的方法往往会损害泛化能力或导致过高的计算和内存开销。我们希望CL-VISTA为推进多模态基础模型中的持续学习提供关键见解。

🔬 方法详解

问题定义:现有的视频大语言模型持续学习基准存在以下痛点:一是依赖于未经过大规模预训练的模型,二是将单个数据集划分为子任务,导致任务冗余,使得预训练模型上的灾难性遗忘现象不明显。因此,现有基准无法有效评估现代视频大语言模型的持续学习能力。

核心思路:CL-VISTA的核心思路是构建一个更具挑战性的持续学习基准,通过引入更多样化的任务和更显著的分布偏移,来有效地暴露视频大语言模型中的灾难性遗忘问题。同时,该基准还关注持续学习方法在性能、计算效率和内存占用三个维度上的表现,以更全面地评估各种方法的优劣。

技术框架:CL-VISTA基准包含8个不同的任务,涵盖感知、理解和推理三个方面。这些任务来自不同的数据集,具有不同的数据分布,从而引入了显著的分布偏移。此外,CL-VISTA还提供了一个全面的评估框架,包括6个不同的协议,用于评估持续学习方法在性能、计算效率和内存占用三个维度上的表现。性能维度还包含一个通用的视频理解评估,以区分真正的智能提升和任务特定过拟合。

关键创新:CL-VISTA的关键创新在于其任务的多样性和分布偏移的显著性,这使得它能够更有效地暴露视频大语言模型中的灾难性遗忘问题。此外,CL-VISTA的全面评估框架也为持续学习方法的研究提供了更细致的评估指标。

关键设计:CL-VISTA在任务选择上,考虑了任务的多样性和难度,确保能够覆盖视频理解的各个方面。在评估协议设计上,CL-VISTA考虑了性能、计算效率和内存占用三个维度,并设计了相应的评估指标。此外,CL-VISTA还提供了一个通用的视频理解评估,用于评估持续学习方法的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对10种主流持续学习方法的基准测试表明,没有一种方法能够在所有维度上都取得最佳表现。缓解灾难性遗忘的方法往往会牺牲泛化能力或带来过高的计算和内存开销。这一发现揭示了持续学习方法在视频大语言模型中面临的根本性挑战,为未来的研究方向提供了重要启示。

🎯 应用场景

CL-VISTA基准的提出,能够促进视频大语言模型在持续学习领域的研究进展,推动模型在实际应用中更好地适应不断变化的环境。例如,在智能监控、自动驾驶、智能客服等领域,模型需要不断学习新的场景和任务,以保持其性能和可靠性。CL-VISTA可以帮助研究人员开发更有效的持续学习方法,从而提高这些应用场景的智能化水平。

📄 摘要(原文)

Video Large Language Models (Video-LLMs) require continual learning to adapt to non-stationary real-world data. However, existing benchmarks fall short of evaluating modern foundation models: many still rely on models without large-scale pre-training, and prevailing benchmarks typically partition a single dataset into sub-tasks, resulting in high task redundancy and negligible forgetting on pre-trained Video-LLMs. To address these limitations, we propose CL-VISTA, a benchmark tailored for continual video understanding of Video-LLMs. By curating 8 diverse tasks spanning perception, understanding, and reasoning, CL-VISTA induces substantial distribution shifts that effectively expose catastrophic forgetting. To systematically assess CL methods, we establish a comprehensive evaluation framework comprising 6 distinct protocols across 3 critical dimensions: performance, computational efficiency, and memory footprint. Notably, the performance dimension incorporates a general video understanding assessment to assess whether CL methods genuinely enhance foundational intelligence or merely induce task-specific overfitting. Extensive benchmarking of 10 mainstream CL methods reveals a fundamental trade-off: no single approach achieves universal superiority across all dimensions. Methods that successfully mitigate catastrophic forgetting tend to compromise generalization or incur prohibitive computational and memory overheads. We hope CL-VISTA provides critical insights for advancing continual learning in multimodal foundation models.