Vision Language Models: A Survey of 26K Papers

作者: Fengming Lin

分类: cs.CV

发布日期: 2025-10-10

备注: VLM/LLM Learning Notes

💡 一句话要点

大规模视觉语言模型研究趋势分析：基于2.6万篇论文的综合调研

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 研究趋势分析 多模态学习 深度学习 自然语言处理 计算机视觉 大规模数据分析 指令调优

📋 核心要点

现有视觉语言模型研究缺乏大规模、系统性的趋势分析，难以把握领域发展方向。
本文构建了包含2.6万篇论文的知识图谱，并设计了自动化的主题标签分配和趋势挖掘方法。
通过对三大顶会论文的分析，揭示了视觉语言模型领域在多模态融合、生成方法和3D/视频理解等方面的关键趋势。

📝 摘要（中文）

本文对CVPR、ICLR和NeurIPS三大顶会2023-2025年间收录的26104篇论文进行了透明且可复现的研究趋势测量。通过规范化标题和摘要，并使用手工构建的词典进行短语保护和匹配，为论文分配多达35个主题标签，并挖掘关于任务、架构、训练机制、目标、数据集和共现模态的细粒度线索。分析量化了三个宏观转变：(1)多模态视觉-语言-LLM工作的急剧增加，将经典感知重构为指令跟随和多步骤推理；(2)生成方法的稳步扩展，扩散模型的研究围绕可控性、蒸馏和速度进行整合；(3)3D和视频活动的持续发展，组合从NeRFs转向Gaussian splatting，并越来越强调以人和智能体为中心的理解。在VLM中，诸如Prompting/Adapters/LoRA之类的参数高效适配和轻量级视觉-语言桥接占据主导地位；训练实践从头开始构建编码器转变为指令调优和微调强大的骨干网络；对比目标相对于交叉熵/排序和蒸馏有所减少。跨会议比较表明，CVPR具有更强的3D足迹，而ICLR具有最高的VLM份额，而效率或鲁棒性等可靠性主题则在各个领域扩散。我们发布词典和方法论，以实现审计和扩展。局限性包括词典召回率和仅摘要范围，但纵向信号在各个会议和年份中是一致的。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）研究发展迅速，但缺乏对大规模论文数据的系统性分析，难以准确把握领域发展趋势和热点方向。现有的分析方法往往依赖人工标注或小规模数据集，难以覆盖VLM领域的全貌，并且缺乏可复现性和透明性。

核心思路：本文的核心思路是构建一个大规模的VLM论文知识图谱，并设计一套自动化的分析流程，从而实现对VLM领域研究趋势的量化分析。通过对论文标题和摘要进行处理，提取关键信息，并使用手工构建的词典进行匹配，从而为论文分配主题标签，并挖掘细粒度的研究线索。

技术框架：本文的技术框架主要包括以下几个步骤：1) 数据收集：收集CVPR、ICLR和NeurIPS三大顶会2023-2025年间收录的26104篇论文的标题和摘要。2) 数据预处理：对标题和摘要进行规范化处理，包括去除停用词、词干提取等。3) 词典构建：手工构建一个包含VLM领域相关术语的词典，用于主题标签分配和研究线索挖掘。4) 主题标签分配：使用词典对论文标题和摘要进行匹配，为论文分配主题标签。5) 趋势分析：对主题标签的分布和变化趋势进行分析，从而揭示VLM领域的研究热点和发展方向。

关键创新：本文的关键创新在于构建了一个大规模的VLM论文知识图谱，并设计了一套自动化的分析流程，从而实现了对VLM领域研究趋势的量化分析。与现有方法相比，本文的方法具有更高的可复现性和透明性，并且能够覆盖更广泛的研究领域。

关键设计：本文的关键设计包括：1) 手工构建的VLM领域词典，该词典包含了VLM领域相关的术语，能够准确地为论文分配主题标签。2) 自动化的分析流程，该流程能够高效地处理大规模的论文数据，并挖掘细粒度的研究线索。3) 纵向分析方法，该方法能够揭示VLM领域的研究趋势和发展方向。

📊 实验亮点

该研究揭示了VLM领域的三大宏观趋势：多模态视觉-语言-LLM工作的急剧增加；生成方法的稳步扩展；3D和视频活动的持续发展。研究还发现，参数高效适配和轻量级视觉-语言桥接在VLM中占据主导地位，训练实践从头开始构建编码器转变为指令调优和微调强大的骨干网络。

🎯 应用场景

该研究成果可应用于多个领域，包括：为研究人员提供VLM领域的研究趋势分析，帮助他们快速了解领域动态；为政策制定者提供决策支持，指导人工智能领域的发展方向；为企业提供技术情报，帮助他们把握市场机遇。此外，该研究的方法论和工具可以推广到其他人工智能领域的研究趋势分析中。

📄 摘要（原文）

We present a transparent, reproducible measurement of research trends across 26,104 accepted papers from CVPR, ICLR, and NeurIPS spanning 2023-2025. Titles and abstracts are normalized, phrase-protected, and matched against a hand-crafted lexicon to assign up to 35 topical labels and mine fine-grained cues about tasks, architectures, training regimes, objectives, datasets, and co-mentioned modalities. The analysis quantifies three macro shifts: (1) a sharp rise of multimodal vision-language-LLM work, which increasingly reframes classic perception as instruction following and multi-step reasoning; (2) steady expansion of generative methods, with diffusion research consolidating around controllability, distillation, and speed; and (3) resilient 3D and video activity, with composition moving from NeRFs to Gaussian splatting and a growing emphasis on human- and agent-centric understanding. Within VLMs, parameter-efficient adaptation like prompting/adapters/LoRA and lightweight vision-language bridges dominate; training practice shifts from building encoders from scratch to instruction tuning and finetuning strong backbones; contrastive objectives recede relative to cross-entropy/ranking and distillation. Cross-venue comparisons show CVPR has a stronger 3D footprint and ICLR the highest VLM share, while reliability themes such as efficiency or robustness diffuse across areas. We release the lexicon and methodology to enable auditing and extension. Limitations include lexicon recall and abstract-only scope, but the longitudinal signals are consistent across venues and years.

Vision Language Models: A Survey of 26K Papers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册