VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning
作者: Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng
分类: cs.CV
发布日期: 2026-03-03
备注: 23 pages, 6 figures
💡 一句话要点
提出VSeacher,通过强化学习赋能多模态模型,使其具备长程多轮Web搜索能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态搜索 强化学习 Web Agent 长程推理 工具调用 数据合成 多模态问答
📋 核心要点
- 现有大型模型主要集中于文本模态,在应用场景上存在局限性,而多模态模型缺乏访问和利用最新Web信息的能力。
- VSearcher通过强化学习,将静态多模态模型转变为能够进行长程、多轮工具使用的多模态搜索Agent,使其具备Web搜索能力。
- 实验结果表明,VSearcher在多个多模态搜索基准上表现出色,超越了现有的多模态搜索Agent,甚至优于一些专有模型。
📝 摘要(中文)
本文提出了VSearcher,旨在将静态多模态模型转变为多模态搜索Agent,使其能够在真实Web环境中进行长程、多轮的工具使用,包括文本搜索、图像搜索和网页浏览,该过程通过强化学习实现。具体而言,本文引入了迭代注入数据合成流程,以生成大规模、复杂的多模态问答数据,并使用综合指标进行过滤,以确保高质量和足够的难度。然后,采用SFT-then-RL训练流程,将基础多模态模型转变为能够在真实Web环境中进行多轮工具调用的Agent。此外,本文提出了一个多模态搜索基准MM-SearchExam,专门用于评估多模态搜索Agent的搜索能力,该基准对现有的专有模型提出了很高的挑战。在多个多模态搜索基准上的大量评估表明了本文方法的有效性。VSearcher在多模态Web搜索任务上实现了优于现有方法甚至超过一些专有模型的性能。
🔬 方法详解
问题定义:现有的大型模型,特别是多模态模型,虽然具备一定的感知能力,但缺乏与真实世界交互并利用外部工具(如搜索引擎)的能力。这限制了它们在需要实时信息或复杂推理的任务中的应用。现有的方法主要集中在文本模态,或者无法进行长程、多轮的搜索和推理,难以应对真实Web环境的复杂性。
核心思路:本文的核心思路是通过强化学习(RL)来训练多模态模型,使其能够自主地选择和使用外部工具(文本搜索、图像搜索、网页浏览等),从而在真实Web环境中完成复杂的搜索任务。通过RL,模型可以学习到最优的工具调用策略,从而最大化搜索结果的质量和效率。
技术框架:VSearcher的整体框架包含以下几个主要阶段:1) 数据合成:使用迭代注入数据合成流程生成大规模、复杂的多模态问答数据。2) 数据过滤:使用综合指标对合成的数据进行过滤,确保高质量和足够的难度。3) SFT(Supervised Fine-Tuning):使用高质量的数据对基础多模态模型进行有监督的微调,使其初步具备工具调用的能力。4) RL(Reinforcement Learning):使用强化学习算法(如PPO)进一步训练模型,使其能够自主地选择和使用工具,并优化搜索策略。
关键创新:本文的关键创新在于:1) 迭代注入数据合成流程:能够生成大规模、高质量、高难度的多模态问答数据,为模型的训练提供了充足的训练样本。2) SFT-then-RL训练流程:先通过SFT使模型具备初步的工具调用能力,再通过RL进一步优化搜索策略,从而提高了模型的性能和鲁棒性。3) MM-SearchExam基准:提出了一个专门用于评估多模态搜索Agent的基准,为该领域的研究提供了标准化的评估平台。
关键设计:在数据合成阶段,采用了迭代注入的方式,逐步增加问题的复杂度和难度。在数据过滤阶段,使用了多种指标(如问题难度、答案质量等)来筛选数据。在RL阶段,使用了PPO算法,并设计了合适的奖励函数,以鼓励模型选择正确的工具和生成高质量的搜索结果。具体的参数设置和网络结构在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VSearcher在多个多模态搜索基准上取得了显著的性能提升。例如,在MM-SearchExam基准上,VSearcher的性能优于现有的多模态搜索Agent,甚至超过了一些专有模型。具体的性能数据和提升幅度在论文中进行了详细的展示(未知)。
🎯 应用场景
VSearcher具有广泛的应用前景,例如智能客服、产品搜索、信息检索、教育辅助等。它可以帮助用户更高效地获取所需信息,解决复杂问题。未来,该技术可以应用于更广泛的领域,例如自动驾驶、机器人导航等,使机器能够更好地理解和适应真实世界。
📄 摘要(原文)
Large models are increasingly becoming autonomous agents that interact with real-world environments and use external tools to augment their static capabilities. However, most recent progress has focused on text-only large language models, which are limited to a single modality and therefore have narrower application scenarios. On the other hand, multimodal large models, while offering stronger perceptual capabilities, remain limited to static knowledge and lack the ability to access and leverage up-to-date web information. In this paper, we propose VSearcher, turning static multimodal model into multimodal search agent capable of long-horizon, multi-turn tool use in real-world web environments, including text search, image search, and web browsing, via reinforcement learning. Specifically, we introduce Iterative Injection Data Synthesis pipeline to generate large-scale, complex multimodal QA questions, which are further filtered with comprehensive metrics to ensure high quality and sufficient difficulty. We then adopt an SFT-then-RL training pipeline to turn base multimodal models to agent capable of multi-turn tool calling in real-world web environments. Besides, we propose a multimodal search benchmark MM-SearchExam dedicated to evaluating search capabilities of multimodal search agents, which proves highly challenging for recent proprietary models. Extensive evaluations across multiple multimodal search benchmarks reveal effectiveness of our method. VSearcher achieves superior performance compared to recent multimodal search agents and even surpasses several proprietary models on multimodal web search tasks.