Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

作者: Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang

分类: cs.CV

发布日期: 2026-03-06

备注: Penguin-VL Technical Report; Code: https://github.com/tencent-ailab/Penguin-VL

🔗 代码/项目: GITHUB

💡 一句话要点

Penguin-VL：利用LLM初始化视觉编码器，探索高效VLM的性能极限

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 LLM初始化 视觉编码器 多模态学习 高效VLM 文档理解 视觉知识 视频理解

📋 核心要点

现有VLM依赖大规模对比预训练的视觉编码器，但对比学习的目标与VLM下游任务存在不匹配，抑制了细粒度视觉信息的学习。
Penguin-VL提出使用纯文本LLM初始化视觉编码器，避免了对比预训练的限制，从而提升视觉表征的保真度和数据效率。
实验表明，Penguin-VL在多个图像和视频任务上表现优异，尤其在文档理解、视觉知识和多视角视频理解方面超越了现有VLM。

📝 摘要（中文）

视觉语言模型(VLM)的发展很大程度上依赖于模型规模的扩大，这阻碍了其在计算资源受限的移动和边缘设备（如智能手机和机器人）上的部署。本文旨在探索紧凑型（例如，2B和8B）VLM的性能极限。我们挑战了当前VLM必须依赖于通过大规模对比预训练（例如，CLIP/SigLIP）初始化的视觉编码器的普遍做法。我们发现了一个目标不匹配问题：为区分而优化的对比学习，强制执行粗粒度的类别级别不变性，从而抑制了密集字幕和复杂VLM推理所需的细粒度视觉线索。为了解决这个问题，我们提出了Penguin-VL，其视觉编码器由纯文本LLM初始化。实验表明，Penguin-Encoder是传统对比预训练的卓越替代方案，为多模态理解释放了更高程度的视觉保真度和数据效率。在各种图像和视频基准测试中，Penguin-VL在数学推理方面达到了与领先VLM（例如，Qwen3-VL）相当的性能，并在文档理解、视觉知识和多视角视频理解等任务中超越了它们。值得注意的是，这些收益是通过轻量级架构实现的，表明改进的视觉表示而非模型缩放是性能的主要驱动因素。消融实验表明，Penguin-Encoder始终优于对比预训练编码器，保留了对密集感知和复杂推理至关重要的细粒度空间和时间线索。这使其成为计算高效VLM的强大替代方案，并能够在资源受限的环境中实现高性能。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）依赖于大规模对比预训练的视觉编码器，例如CLIP或SigLIP。然而，对比学习的目标是区分不同的类别，这导致模型学习到粗粒度的类别级别不变性，而忽略了细粒度的视觉信息。这种目标不匹配限制了VLM在需要精细视觉感知的任务（如密集字幕、文档理解和复杂推理）上的性能。

核心思路：Penguin-VL的核心思路是使用纯文本的大语言模型（LLM）来初始化视觉编码器。这种方法避免了对比预训练的限制，允许视觉编码器学习更细粒度、更具判别性的视觉特征。通过将视觉编码器与LLM对齐，模型能够更好地理解图像和文本之间的关系，从而提高VLM的整体性能。

技术框架：Penguin-VL的整体架构包含一个视觉编码器和一个语言模型。视觉编码器使用LLM进行初始化，并经过微调以适应视觉任务。语言模型负责处理文本输入，并将视觉编码器的输出与文本信息融合。模型通过多模态训练进行优化，以提高其在各种视觉语言任务上的性能。

关键创新：Penguin-VL最重要的创新点在于使用LLM初始化视觉编码器。与传统的对比预训练方法相比，这种方法能够学习到更细粒度、更具判别性的视觉特征，从而提高VLM在需要精细视觉感知的任务上的性能。此外，Penguin-VL还展示了轻量级架构也能实现与大型VLM相当甚至更好的性能，表明改进视觉表示比模型缩放更重要。

关键设计：Penguin-VL的关键设计包括：1) 使用预训练的LLM（例如，LLaMA）初始化视觉编码器；2) 使用多模态数据集对视觉编码器进行微调，以适应视觉语言任务；3) 设计轻量级的视觉编码器架构，以提高计算效率；4) 采用合适的损失函数，例如交叉熵损失或对比损失，以优化模型的性能。

📊 实验亮点

Penguin-VL在多个图像和视频基准测试中取得了显著的性能提升。例如，在文档理解任务中，Penguin-VL超越了Qwen3-VL等领先的VLM。在视觉知识和多视角视频理解任务中，Penguin-VL也取得了显著的性能提升。此外，消融实验表明，Penguin-Encoder始终优于对比预训练编码器，证明了其有效性。

🎯 应用场景

Penguin-VL具有广泛的应用前景，尤其是在计算资源受限的场景中。它可以应用于智能手机、机器人等设备，实现高效的视觉语言理解。例如，它可以用于图像搜索、智能客服、自动驾驶、机器人导航等领域。此外，Penguin-VL还可以用于文档理解、视觉知识推理等任务，为各行各业提供更智能化的解决方案。

📄 摘要（原文）

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理