Specificity-aware reinforcement learning for fine-grained open-world classification

📄 arXiv: 2603.03197v1 📥 PDF

作者: Samuele Angheben, Davide Berasi, Alessandro Conti, Elisa Ricci, Yiming Wang

分类: cs.CV

发布日期: 2026-03-03

备注: Accepted at CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出SpeciaRL,解决开放世界细粒度分类中LMMs预测泛化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度分类 开放世界 强化学习 大型多模态模型 特异性感知

📋 核心要点

  1. 现有LMMs在细粒度分类中倾向于产生过于泛化的预测,缺乏特异性,限制了其在开放世界场景下的应用。
  2. SpeciaRL通过动态的、基于验证器的奖励信号,引导LMMs在保证正确性的前提下,生成更具特异性的预测。
  3. 实验表明,SpeciaRL在多个细粒度基准测试中,显著提升了模型在开放世界环境下的分类性能,实现了正确性和特异性的最佳平衡。

📝 摘要(中文)

在开放世界环境下进行细粒度视觉概念分类,即在没有预定义标签集的情况下,要求模型既准确又具有特异性。最近的推理大型多模态模型(LMMs)表现出强大的视觉理解能力,但在执行细粒度图像分类时,往往会产生过于泛化的预测。我们的初步分析表明,模型确实具有内在的细粒度领域知识。然而,在不损害正确性的前提下,促进更具体的预测(特异性)仍然是一个非平凡且未被充分研究的挑战。在这项工作中,我们研究了如何引导推理LMMs朝着正确和具体的预测方向发展。我们提出了一个新的特异性感知强化学习框架SpeciaRL,用于在开放世界环境下对推理LMMs进行细粒度图像分类的微调。SpeciaRL引入了一种动态的、基于验证器的奖励信号,该信号锚定到在线rollout中的最佳预测,在尊重模型能力以防止不正确预测的同时,提高特异性。我们的域外实验表明,SpeciaRL在广泛的细粒度基准测试中,在正确性和特异性之间提供了最佳的权衡,超越了现有方法,并推进了开放世界细粒度图像分类。

🔬 方法详解

问题定义:论文旨在解决开放世界细粒度图像分类问题,即在没有预定义标签集的情况下,如何使LMMs在保证分类正确性的同时,生成更具特异性的预测。现有LMMs虽然具有强大的视觉理解能力,但在细粒度分类任务中,往往会产生过于泛化的预测,无法充分利用其内在的细粒度领域知识。这种泛化问题限制了LMMs在实际开放世界场景中的应用。

核心思路:论文的核心思路是利用强化学习,通过奖励机制引导LMMs生成更具特异性的预测。具体来说,设计了一个动态的、基于验证器的奖励信号,该信号会根据模型在在线rollout中的预测结果,动态调整奖励值。通过这种方式,模型可以在保证正确性的前提下,逐步学习生成更具体的预测。

技术框架:SpeciaRL框架主要包含以下几个模块:1) LMMs:作为agent,负责生成图像的分类预测;2) 环境:包含细粒度图像数据集;3) 奖励函数:基于验证器的动态奖励信号,用于评估预测的正确性和特异性;4) 强化学习算法:用于优化LMMs的预测策略。整个流程如下:LMMs接收图像作为输入,生成预测结果;奖励函数根据预测结果计算奖励值;强化学习算法根据奖励值更新LMMs的参数,使其能够生成更准确、更具体的预测。

关键创新:SpeciaRL的关键创新在于提出了一个动态的、基于验证器的奖励信号。传统的强化学习方法通常使用固定的奖励函数,难以适应细粒度分类任务中对特异性的要求。SpeciaRL的奖励信号会根据模型在在线rollout中的预测结果,动态调整奖励值,从而更好地引导模型学习生成更具特异性的预测。与现有方法相比,SpeciaRL能够更好地平衡正确性和特异性,从而在开放世界细粒度分类任务中取得更好的性能。

关键设计:SpeciaRL的关键设计包括:1) 动态奖励函数:奖励函数的设计需要平衡正确性和特异性。论文采用基于验证器的奖励信号,即只有当预测结果通过验证器验证时,才会给予奖励。奖励值的大小与预测的特异性程度相关,预测越具体,奖励值越高。2) 在线rollout:为了更好地探索预测空间,论文采用在线rollout策略。在每个episode中,模型会生成多个预测结果,并根据奖励值选择最佳的预测结果。3) 强化学习算法:论文采用PPO算法来优化LMMs的预测策略。PPO算法具有较好的稳定性和收敛性,能够有效地训练LMMs。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpeciaRL在多个细粒度基准测试中,显著提升了LMMs的分类性能。例如,在CUB数据集上,SpeciaRL将模型的top-1准确率提高了5%以上,同时显著提升了预测的特异性。与其他现有方法相比,SpeciaRL在正确性和特异性之间取得了更好的平衡。

🎯 应用场景

SpeciaRL可应用于各种需要细粒度分类的开放世界场景,例如:野生动植物识别、疾病诊断、产品缺陷检测等。该研究有助于提升LMMs在实际应用中的可靠性和实用性,并为未来的开放世界细粒度分类研究提供新的思路。

📄 摘要(原文)

Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly generic predictions when performing fine-grained image classification. Our preliminary analysis reveals that models do possess the intrinsic fine-grained domain knowledge. However, promoting more specific predictions (specificity) without compromising correct ones (correctness) remains a non-trivial and understudied challenge. In this work, we investigate how to steer reasoning LMMs toward predictions that are both correct and specific. We propose a novel specificity-aware reinforcement learning framework, SpeciaRL, to fine-tune reasoning LMMs on fine-grained image classification under the open-world setting. SpeciaRL introduces a dynamic, verifier-based reward signal anchored to the best predictions within online rollouts, promoting specificity while respecting the model's capabilities to prevent incorrect predictions. Our out-of-domain experiments show that SpeciaRL delivers the best trade-off between correctness and specificity across extensive fine-grained benchmarks, surpassing existing methods and advancing open-world fine-grained image classification. Code and model are publicly available at https://github.com/s-angheben/SpeciaRL.