On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding
作者: Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener, Angela Yao
分类: cs.CV
发布日期: 2026-03-03
备注: 22 pages, 9 figures, 16 tables. Accepted by ICLR2026
💡 一句话要点
针对动作理解,提出生成辅助判别分类器(GAD),提升多模态大语言模型性能与效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动作理解 多模态大语言模型 生成式模型 判别式模型 视频分析 时间动作理解 自回归生成
📋 核心要点
- 现有MLLM作为生成式分类器进行动作理解时,存在效率低、语义重叠导致歧义等问题。
- 论文提出生成辅助判别(GAD)分类器,利用生成模型辅助判别模型,提升性能并保持效率。
- 实验表明,GAD在多个数据集上取得了SOTA结果,平均提升2.5%准确率,推理速度提升3倍。
📝 摘要(中文)
多模态大语言模型(MLLM)在开放世界动作理解方面取得了进展,并且可以通过自回归生成文本形式的动作标签来适应闭集设置,作为生成式分类器。然而,这种方法效率低下,并且动作标签之间共享的子词引入了语义重叠,导致生成过程中的歧义。相比之下,判别式分类器学习特定于任务的表示,具有清晰的决策边界,从而能够进行高效的单步分类,而无需自回归解码。本文首先比较了MLLM在闭集动作理解中作为生成式和判别式分类器的性能,揭示了后者的卓越准确性和效率。为了缩小性能差距,我们设计了策略来提升生成式分类器,使其性能与判别式分类器相当。此外,我们表明生成式建模可以补充判别式分类器,从而在保持效率的同时获得更好的性能。为此,我们提出了一种用于闭集动作理解的生成辅助判别(GAD)分类器。GAD仅在微调期间运行,保持与MLLM预训练的完全兼容性。在时间动作理解基准上的大量实验表明,GAD提高了生成方法的准确性和效率,在五个数据集的四个任务上实现了最先进的结果,包括在我们最大的COIN基准上平均提高了2.5%的准确率和3倍的推理速度。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在闭集动作理解任务中,作为生成式分类器时存在的效率低下和语义歧义问题。现有的生成式方法需要自回归地生成动作标签,计算量大,且不同动作标签之间可能存在语义重叠,影响分类准确性。
核心思路:论文的核心思路是结合生成式模型和判别式模型的优点。判别式模型具有高效的单步分类能力和清晰的决策边界,但可能缺乏生成式模型的上下文理解能力。因此,论文提出利用生成模型在微调阶段辅助判别模型的训练,从而提升判别模型的性能,同时保持其高效的推理速度。
技术框架:GAD (Generation-Assisted Discriminative) 分类器的整体框架包含两个主要阶段:微调阶段和推理阶段。在微调阶段,利用生成模型生成动作标签的文本描述,并将这些描述作为判别模型的辅助信息,以提升判别模型的学习能力。在推理阶段,仅使用判别模型进行单步分类,从而保证了推理效率。该框架与MLLM的预训练阶段完全兼容。
关键创新:论文的关键创新在于提出了生成辅助判别(GAD)分类器的概念,将生成式模型和判别式模型有机结合,克服了各自的缺点。GAD仅在微调阶段使用生成模型,保证了推理阶段的效率,同时利用生成模型提供的辅助信息提升了判别模型的性能。
关键设计:GAD的关键设计包括:1) 使用预训练的MLLM作为生成模型和判别模型的基础;2) 在微调阶段,使用生成模型生成动作标签的文本描述,例如使用prompt工程;3) 将生成的文本描述与视觉特征融合,作为判别模型的输入;4) 使用交叉熵损失函数训练判别模型,目标是最小化预测标签与真实标签之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GAD在五个数据集的四个时间动作理解任务上取得了最先进的结果。特别是在COIN数据集上,GAD的准确率平均提高了2.5%,推理速度提高了3倍。这些结果证明了GAD在提高动作理解的准确性和效率方面的有效性。
🎯 应用场景
该研究成果可应用于视频监控、人机交互、机器人控制等领域。例如,在视频监控中,可以利用GAD快速准确地识别异常行为;在人机交互中,可以帮助机器人理解人类的动作意图;在机器人控制中,可以使机器人能够根据环境变化自主地执行动作。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have advanced open-world action understanding and can be adapted as generative classifiers for closed-set settings by autoregressively generating action labels as text. However, this approach is inefficient, and shared subwords across action labels introduce semantic overlap, leading to ambiguity in generation. In contrast, discriminative classifiers learn task-specific representations with clear decision boundaries, enabling efficient one-step classification without autoregressive decoding. We first compare generative and discriminative classifiers with MLLMs for closed-set action understanding, revealing the superior accuracy and efficiency of the latter. To bridge the performance gap, we design strategies that elevate generative classifiers toward performance comparable with discriminative ones. Furthermore, we show that generative modeling can complement discriminative classifiers, leading to better performance while preserving efficiency. To this end, we propose Generation-Assisted Discriminative~(GAD) classifier for closed-set action understanding. GAD operates only during fine-tuning, preserving full compatibility with MLLM pretraining. Extensive experiments on temporal action understanding benchmarks demonstrate that GAD improves both accuracy and efficiency over generative methods, achieving state-of-the-art results on four tasks across five datasets, including an average 2.5% accuracy gain and 3x faster inference on our largest COIN benchmark.