O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model
作者: Rishi Gupta, Mukilan Karuppasamy, Shyam Marjit, Aditay Tripathi, Anirban Chakraborty
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-11-18
备注: Accepted to AAAI 2026
💡 一句话要点
O3SLM:开放权重、数据和词汇的草图-语言模型,提升抽象视觉输入理解能力。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 视觉语言模型 草图理解 大规模数据集 指令微调 图像检索
📋 核心要点
- 现有LVLM在理解抽象视觉输入,特别是手绘草图方面存在不足,限制了其应用。
- 论文提出O3SLM,通过构建大规模图像-草图-指令三元组数据集进行预训练和指令微调,提升模型性能。
- 实验表明,O3SLM在对象定位、计数、图像检索和视觉问答等任务上显著优于现有LVLM。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在实际应用中日益普及,但其理解抽象视觉输入的能力仍然有限。特别是在理解手绘草图方面,草图提供了一种直观的方式来表达难以用文字描述的概念,LVLMs表现不佳。我们认为主要瓶颈在于缺乏一个大规模数据集,该数据集能够联合建模草图、逼真图像和相应的自然语言指令。为了解决这个问题,我们提出了两个关键贡献:(1)一个新的、大规模的图像-草图-指令三元组数据集,旨在促进预训练和指令微调;(2) O3SLM,一个基于该数据集训练的LVLM。在多个基于草图的任务上的综合评估,包括(a)对象定位,(b)计数,(c)图像检索(即SBIR和细粒度SBIR),以及(d)视觉问答(VQA)。实验结果表明,O3SLM在草图理解和推理方面取得了最先进的性能,显著优于现有的LVLM,同时整合了现有的三个草图数据集,即QuickDraw!、Sketchy和Tu Berlin,以及我们生成的SketchVCL数据集。
🔬 方法详解
问题定义:现有的大型视觉语言模型在理解抽象视觉输入,尤其是手绘草图方面存在困难。这主要是因为缺乏一个能够同时建模草图、真实图像和自然语言指令的大规模数据集。现有方法难以有效利用草图这种直观的表达方式,限制了模型在需要抽象视觉理解任务中的表现。
核心思路:论文的核心思路是通过构建一个大规模的图像-草图-指令三元组数据集,并在此基础上训练一个开放的视觉语言模型O3SLM。通过联合建模草图、图像和语言,使模型能够更好地理解草图所表达的语义信息,从而提升其在相关任务中的性能。这样设计的目的是为了弥补现有数据集的不足,并为LVLM提供更丰富的训练数据。
技术框架:O3SLM的整体框架是一个标准的视觉语言模型架构,包括视觉编码器、语言模型和跨模态交互模块。首先,视觉编码器将图像和草图编码成视觉特征;然后,语言模型处理自然语言指令;最后,跨模态交互模块将视觉特征和语言特征融合,用于预测或生成目标输出。该框架的关键在于使用大规模的图像-草图-指令三元组数据集进行训练,从而使模型能够学习到草图和语言之间的对应关系。
关键创新:论文最重要的技术创新点在于构建了一个新的大规模数据集SketchVCL,该数据集包含图像、草图和自然语言指令的三元组。与现有数据集相比,SketchVCL规模更大,覆盖的语义信息更丰富,更适合用于训练能够理解草图的LVLM。此外,O3SLM的开放权重、开放数据和开放词汇的设计也促进了研究的复现和进一步发展。
关键设计:数据集SketchVCL的构建采用了半自动化的方法,首先利用现有的图像数据集和草图生成算法生成草图,然后人工编写相应的自然语言指令。在模型训练方面,采用了多任务学习的方法,同时优化多个损失函数,包括图像-草图匹配损失、语言生成损失和任务相关的损失函数。具体的网络结构和参数设置根据不同的任务进行调整,以达到最佳性能。
📊 实验亮点
O3SLM在多个基于草图的任务上取得了显著的性能提升。例如,在细粒度草图图像检索(FG-SBIR)任务上,O3SLM的性能显著优于现有LVLM。此外,O3SLM在对象定位、计数和视觉问答等任务上也取得了最先进的结果,证明了其在草图理解和推理方面的优越性。
🎯 应用场景
该研究成果可应用于草图辅助设计、图像检索、视觉问答等领域。例如,用户可以通过绘制草图来搜索图像,或与AI系统进行基于草图的交互。未来,该技术有望在教育、艺术创作、人机交互等领域发挥重要作用,提升用户体验和工作效率。
📄 摘要(原文)
While Large Vision Language Models (LVLMs) are increasingly deployed in real-world applications, their ability to interpret abstract visual inputs remains limited. Specifically, they struggle to comprehend hand-drawn sketches, a modality that offers an intuitive means of expressing concepts that are difficult to describe textually. We identify the primary bottleneck as the absence of a large-scale dataset that jointly models sketches, photorealistic images, and corresponding natural language instructions. To address this, we present two key contributions: (1) a new, large-scale dataset of image-sketch-instruction triplets designed to facilitate both pretraining and instruction tuning, and (2) O3SLM, an LVLM trained on this dataset. Comprehensive evaluations on multiple sketch-based tasks: (a) object localization, (b) counting, (c) image retrieval i.e., (SBIR and fine-grained SBIR), and (d) visual question answering (VQA); while incorporating the three existing sketch datasets, namely QuickDraw!, Sketchy, and Tu Berlin, along with our generated SketchVCL dataset, show that O3SLM achieves state-of-the-art performance, substantially outperforming existing LVLMs in sketch comprehension and reasoning.