Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

作者: Shan Ning, Longtian Qiu, Xuming He

分类: cs.CV

发布日期: 2026-03-05

备注: Accepted by ICLR 26, code and weights are publicly available

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Wiki-R1：通过数据和采样课程学习，激励多模态推理以解决知识库VQA问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识库视觉问答 多模态推理 课程学习 强化学习 数据生成 领域自适应 大型语言模型

📋 核心要点

KB-VQA面临检索噪声和知识库结构化带来的挑战，导致预训练MLLM难以有效推理和领域自适应。
Wiki-R1通过数据生成和课程强化学习，构建与模型能力匹配的训练分布，弥合预训练和KB-VQA目标分布的差距。
Wiki-R1在Encyclopedic VQA和InfoSeek上取得了SOTA结果，准确率分别提升至37.1%和44.1%。

📝 摘要（中文）

知识库视觉问答(KB-VQA)要求模型通过整合外部知识来回答关于图像的问题，由于检索噪声和知识库的结构化、百科全书式的性质，这带来了巨大的挑战。这些特性造成了与预训练多模态大型语言模型(MLLM)的分布差距，使得在后训练阶段进行有效的推理和领域自适应变得困难。本文提出了Wiki-R1，一个基于数据生成的课程强化学习框架，系统地激励MLLM在KB-VQA中进行推理。Wiki-R1构建了一系列与模型不断发展的能力相一致的训练分布，弥合了从预训练到KB-VQA目标分布的差距。我们引入了可控的课程数据生成，它操纵检索器以产生所需难度级别的样本，以及一种课程采样策略，该策略选择可能在RL更新期间产生非零优势的信息样本。样本难度使用观察到的奖励来估计，并传播到未观察到的样本以指导学习。在两个KB-VQA基准测试Encyclopedic VQA和InfoSeek上的实验表明，Wiki-R1取得了新的最先进的结果，在Encyclopedic VQA上的准确率从35.5%提高到37.1%，在InfoSeek上的准确率从40.1%提高到44.1%。项目页面可在https://artanic30.github.io/project_pages/WikiR1/上找到。

🔬 方法详解

问题定义：知识库视觉问答(KB-VQA)任务需要模型结合图像信息和外部知识库来回答问题。现有方法主要依赖于预训练的多模态大语言模型(MLLM)，但由于知识库的噪声和结构化特点，导致MLLM难以有效利用外部知识进行推理，造成性能瓶颈。现有方法缺乏有效的领域自适应策略，无法充分利用预训练模型的潜力。

核心思路：Wiki-R1的核心思路是通过课程学习(Curriculum Learning)的方式，逐步引导MLLM适应KB-VQA任务。具体来说，它通过控制数据生成过程和采样策略，构建一系列由易到难的训练分布，使模型能够逐步掌握利用外部知识进行推理的能力。这种方法模拟了人类学习的过程，从简单概念到复杂概念，逐步提升模型的性能。

技术框架：Wiki-R1主要包含两个核心模块：可控课程数据生成(Controllable Curriculum Data Generation)和课程采样策略(Curriculum Sampling Strategy)。可控课程数据生成模块通过操纵检索器，生成不同难度级别的样本。课程采样策略则根据样本的难度和模型反馈的奖励，选择信息量大的样本进行训练。整个框架通过强化学习的方式进行优化，目标是最大化模型在KB-VQA任务上的性能。

关键创新：Wiki-R1的关键创新在于将课程学习和强化学习相结合，并应用于KB-VQA任务。它通过可控的数据生成和智能采样，有效地解决了MLLM在知识库推理中面临的挑战。与传统方法相比，Wiki-R1能够更有效地利用预训练模型的知识，并逐步提升模型在目标任务上的性能。

关键设计：在可控课程数据生成中，论文设计了一种机制来控制检索器返回的知识的质量和相关性，从而控制样本的难度。在课程采样策略中，论文使用观察到的奖励来估计样本的难度，并利用该信息来指导采样过程。具体的强化学习算法使用了优势函数(Advantage Function)来评估每个样本的价值，并根据优势函数的值来更新模型参数。

🖼️ 关键图片

📊 实验亮点

Wiki-R1在两个KB-VQA基准测试上取得了显著的性能提升。在Encyclopedic VQA上，准确率从35.5%提高到37.1%，实现了1.6%的绝对提升。在InfoSeek上，准确率从40.1%提高到44.1%，实现了4.0%的绝对提升。这些结果表明，Wiki-R1能够有效地提升MLLM在知识库推理方面的能力，并取得了新的SOTA结果。

🎯 应用场景

Wiki-R1的研究成果可应用于各种需要结合视觉信息和外部知识的场景，例如智能客服、教育辅助、医疗诊断等。通过提升模型在知识库推理方面的能力，可以实现更智能、更准确的问答系统，为用户提供更优质的服务。该研究也有助于推动多模态大语言模型在实际应用中的发展。

📄 摘要（原文）

Knowledge-Based Visual Question Answering (KB-VQA) requires models to answer questions about an image by integrating external knowledge, posing significant challenges due to noisy retrieval and the structured, encyclopedic nature of the knowledge base. These characteristics create a distributional gap from pretrained multimodal large language models (MLLMs), making effective reasoning and domain adaptation difficult in the post-training stage. In this work, we propose \textit{Wiki-R1}, a data-generation-based curriculum reinforcement learning framework that systematically incentivizes reasoning in MLLMs for KB-VQA. Wiki-R1 constructs a sequence of training distributions aligned with the model's evolving capability, bridging the gap from pretraining to the KB-VQA target distribution. We introduce \textit{controllable curriculum data generation}, which manipulates the retriever to produce samples at desired difficulty levels, and a \textit{curriculum sampling strategy} that selects informative samples likely to yield non-zero advantages during RL updates. Sample difficulty is estimated using observed rewards and propagated to unobserved samples to guide learning. Experiments on two KB-VQA benchmarks, Encyclopedic VQA and InfoSeek, demonstrate that Wiki-R1 achieves new state-of-the-art results, improving accuracy from 35.5\% to 37.1\% on Encyclopedic VQA and from 40.1\% to 44.1\% on InfoSeek. The project page is available at https://artanic30.github.io/project_pages/WikiR1/.

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理