O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model

作者: Rishi Gupta, Mukilan Karuppasamy, Shyam Marjit, Aditay Tripathi, Anirban Chakraborty

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-11-18

备注: Accepted to AAAI 2026

💡 一句话要点

O3SLM：开放权重、数据和词汇的草图-语言模型，提升抽象视觉输入理解能力。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 视觉语言模型 草图理解 大规模数据集 指令微调 图像检索

📋 核心要点

现有LVLM在理解抽象视觉输入，特别是手绘草图方面存在不足，限制了其应用。
论文提出O3SLM，通过构建大规模图像-草图-指令三元组数据集进行预训练和指令微调，提升模型性能。
实验表明，O3SLM在对象定位、计数、图像检索和视觉问答等任务上显著优于现有LVLM。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在实际应用中日益普及，但其理解抽象视觉输入的能力仍然有限。特别是在理解手绘草图方面，草图提供了一种直观的方式来表达难以用文字描述的概念，LVLMs表现不佳。我们认为主要瓶颈在于缺乏一个大规模数据集，该数据集能够联合建模草图、逼真图像和相应的自然语言指令。为了解决这个问题，我们提出了两个关键贡献：(1)一个新的、大规模的图像-草图-指令三元组数据集，旨在促进预训练和指令微调；(2) O3SLM，一个基于该数据集训练的LVLM。在多个基于草图的任务上的综合评估，包括(a)对象定位，(b)计数，(c)图像检索(即SBIR和细粒度SBIR)，以及(d)视觉问答(VQA)。实验结果表明，O3SLM在草图理解和推理方面取得了最先进的性能，显著优于现有的LVLM，同时整合了现有的三个草图数据集，即QuickDraw!、Sketchy和Tu Berlin，以及我们生成的SketchVCL数据集。

🔬 方法详解

问题定义：现有的大型视觉语言模型在理解抽象视觉输入，尤其是手绘草图方面存在困难。这主要是因为缺乏一个能够同时建模草图、真实图像和自然语言指令的大规模数据集。现有方法难以有效利用草图这种直观的表达方式，限制了模型在需要抽象视觉理解任务中的表现。

核心思路：论文的核心思路是通过构建一个大规模的图像-草图-指令三元组数据集，并在此基础上训练一个开放的视觉语言模型O3SLM。通过联合建模草图、图像和语言，使模型能够更好地理解草图所表达的语义信息，从而提升其在相关任务中的性能。这样设计的目的是为了弥补现有数据集的不足，并为LVLM提供更丰富的训练数据。

技术框架：O3SLM的整体框架是一个标准的视觉语言模型架构，包括视觉编码器、语言模型和跨模态交互模块。首先，视觉编码器将图像和草图编码成视觉特征；然后，语言模型处理自然语言指令；最后，跨模态交互模块将视觉特征和语言特征融合，用于预测或生成目标输出。该框架的关键在于使用大规模的图像-草图-指令三元组数据集进行训练，从而使模型能够学习到草图和语言之间的对应关系。

关键创新：论文最重要的技术创新点在于构建了一个新的大规模数据集SketchVCL，该数据集包含图像、草图和自然语言指令的三元组。与现有数据集相比，SketchVCL规模更大，覆盖的语义信息更丰富，更适合用于训练能够理解草图的LVLM。此外，O3SLM的开放权重、开放数据和开放词汇的设计也促进了研究的复现和进一步发展。

关键设计：数据集SketchVCL的构建采用了半自动化的方法，首先利用现有的图像数据集和草图生成算法生成草图，然后人工编写相应的自然语言指令。在模型训练方面，采用了多任务学习的方法，同时优化多个损失函数，包括图像-草图匹配损失、语言生成损失和任务相关的损失函数。具体的网络结构和参数设置根据不同的任务进行调整，以达到最佳性能。

📊 实验亮点

O3SLM在多个基于草图的任务上取得了显著的性能提升。例如，在细粒度草图图像检索(FG-SBIR)任务上，O3SLM的性能显著优于现有LVLM。此外，O3SLM在对象定位、计数和视觉问答等任务上也取得了最先进的结果，证明了其在草图理解和推理方面的优越性。

🎯 应用场景

该研究成果可应用于草图辅助设计、图像检索、视觉问答等领域。例如，用户可以通过绘制草图来搜索图像，或与AI系统进行基于草图的交互。未来，该技术有望在教育、艺术创作、人机交互等领域发挥重要作用，提升用户体验和工作效率。

📄 摘要（原文）

While Large Vision Language Models (LVLMs) are increasingly deployed in real-world applications, their ability to interpret abstract visual inputs remains limited. Specifically, they struggle to comprehend hand-drawn sketches, a modality that offers an intuitive means of expressing concepts that are difficult to describe textually. We identify the primary bottleneck as the absence of a large-scale dataset that jointly models sketches, photorealistic images, and corresponding natural language instructions. To address this, we present two key contributions: (1) a new, large-scale dataset of image-sketch-instruction triplets designed to facilitate both pretraining and instruction tuning, and (2) O3SLM, an LVLM trained on this dataset. Comprehensive evaluations on multiple sketch-based tasks: (a) object localization, (b) counting, (c) image retrieval i.e., (SBIR and fine-grained SBIR), and (d) visual question answering (VQA); while incorporating the three existing sketch datasets, namely QuickDraw!, Sketchy, and Tu Berlin, along with our generated SketchVCL dataset, show that O3SLM achieves state-of-the-art performance, substantially outperforming existing LVLMs in sketch comprehension and reasoning.

O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册