VARCO-VISION-2.0 Technical Report

📄 arXiv: 2509.10105v2 📥 PDF

作者: Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

分类: cs.CV, cs.CL

发布日期: 2025-09-12 (更新: 2025-09-16)

备注: 19 pages, 1 figure, 14 tables. Technical report for VARCO-VISION-2.0, a Korean-English bilingual VLM in 14B and 1.7B variants. Key features: multi-image understanding, OCR with text localization, improved Korean capabilities


💡 一句话要点

VARCO-VISION-2.0:开源双语视觉语言模型,提升多模态理解与OCR能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 OCR 双语模型 文档理解

📋 核心要点

  1. 现有视觉语言模型在处理复杂文档和图表时,缺乏对多图像的有效理解和空间布局的感知能力。
  2. VARCO-VISION-2.0通过多阶段课程学习和内存优化技术,提升多模态对齐,并支持布局感知的OCR。
  3. 14B模型在OpenCompass VLM排行榜上取得第八名,同时发布了1.7B轻量级版本,便于设备端部署。

📝 摘要(中文)

本文介绍了VARCO-VISION-2.0,一个开源的双语(韩语和英语)视觉语言模型(VLM),它在之前的模型VARCO-VISION-14B的基础上进行了改进。该模型支持多图像理解,适用于文档、图表和表格等复杂输入,并通过预测文本内容及其空间位置来实现布局感知的OCR。该模型采用四阶段课程训练,并结合了内存高效技术,从而增强了多模态对齐,同时保留了核心语言能力,并通过偏好优化提高了安全性。广泛的基准评估表明,该模型在空间定位方面表现出色,并且在两种语言上都取得了具有竞争力的结果,其中14B模型在OpenCompass VLM排行榜上同等规模的模型中排名第八。除了14B规模的模型外,我们还发布了一个针对设备端部署优化的1.7B版本。我们相信这些模型将推动双语VLM的发展及其在实际应用中的应用。VARCO-VISION-2.0的两个变体可在Hugging Face上找到:一个完整规模的14B模型和一个轻量级的1.7B模型。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在处理复杂文档(如包含多个图像、图表、表格的文档)时,对多图像的理解能力不足,以及缺乏对文本空间布局的感知能力的问题。现有方法通常难以同时理解文档的内容和结构,限制了其在实际应用中的效果。

核心思路:论文的核心思路是构建一个双语(韩语和英语)的视觉语言模型,通过多阶段的课程学习,逐步提升模型的多模态对齐能力和空间感知能力。同时,采用内存高效的技术,降低训练成本,并优化模型结构,使其能够部署在设备端。

技术框架:VARCO-VISION-2.0的训练分为四个阶段:第一阶段是预训练,使用大量的图像-文本对数据进行初始化;第二阶段是多图像理解训练,使用包含多个图像的文档数据,提升模型的多图像理解能力;第三阶段是布局感知OCR训练,使用带有空间位置信息的文本数据,训练模型预测文本内容及其空间位置;第四阶段是偏好优化,通过人类反馈,提升模型的安全性和实用性。

关键创新:该论文的关键创新在于:1) 提出了一个多阶段的课程学习策略,逐步提升模型的多模态理解能力和空间感知能力;2) 采用了内存高效的技术,降低了训练成本,并使得模型能够部署在设备端;3) 构建了一个双语的视觉语言模型,支持韩语和英语两种语言。

关键设计:论文中使用了Transformer架构作为模型的基础结构,并针对多图像理解和布局感知OCR任务进行了优化。具体的技术细节包括:使用了特定的损失函数来训练模型预测文本内容及其空间位置;采用了数据增强技术来提升模型的鲁棒性;使用了偏好优化算法来提升模型的安全性和实用性。具体的参数设置和网络结构细节在论文中没有详细描述,属于未知信息。

📊 实验亮点

VARCO-VISION-2.0在多个基准测试中取得了优异的成绩。其中,14B模型在OpenCompass VLM排行榜上同等规模的模型中排名第八,证明了其强大的多模态理解能力。此外,1.7B轻量级模型也表现出了良好的性能,使其能够在设备端部署,为用户提供便捷的视觉语言服务。具体的性能数据和对比基线在论文中没有详细给出,属于未知信息。

🎯 应用场景

VARCO-VISION-2.0具有广泛的应用前景,包括文档理解、信息抽取、智能客服、教育辅助等领域。该模型可以用于自动处理包含图表、表格的复杂文档,提取关键信息,并生成摘要。此外,该模型还可以应用于移动设备,为用户提供智能化的视觉语言服务,例如拍照翻译、文档扫描等。未来,该模型有望成为构建智能文档处理系统的核心组件。

📄 摘要(原文)

We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, while preserving core language abilities and improving safety via preference optimization. Extensive benchmark evaluations demonstrate strong spatial grounding and competitive results for both languages, with the 14B model achieving 8th place on the OpenCompass VLM leaderboard among models of comparable scale. Alongside the 14B-scale model, we release a 1.7B version optimized for on-device deployment. We believe these models advance the development of bilingual VLMs and their practical applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a full-scale 14B model and a lightweight 1.7B model.