TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning
作者: Maximilian von Klinski, Maximilian Schall
分类: cs.CV, cs.CL
发布日期: 2026-03-04
备注: Accepted at WACV 2026
💡 一句话要点
TaxonRL:利用强化学习与中间奖励实现可解释的细粒度视觉推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 细粒度视觉推理 分层推理 可解释性 视觉-语言模型
📋 核心要点
- 现有视觉-语言模型在细粒度分类推理上存在不足,难以区分视觉相似的物种。
- TaxonRL利用强化学习和中间奖励,将推理过程分解为分层分类,提升模型推理能力。
- 实验表明,TaxonRL在Birds-to-Words数据集上超越人类表现,并在其他领域展现出良好的泛化性。
📝 摘要(中文)
传统的视觉-语言模型在对比细粒度的分类推理方面表现不佳,尤其是在区分同一属或科内视觉相似的物种时。我们提出了TaxonRL,一种使用群体相对策略优化和中间奖励的强化学习方法,将推理过程分解为分层分类预测。我们的方法激励模型在进行最终分类之前,显式地推理物种、属和科级别的特征。这种结构化方法旨在提高准确性,并产生透明、可验证的决策过程。在具有挑战性的Birds-to-Words数据集上,TaxonRL实现了91.7%的平均准确率,超过了人类的表现(77.3%),同时生成了可解释的推理轨迹。我们展示了强大的跨领域泛化能力,在灵长类动物和海洋物种验证方面取得了显著的提升。我们的结果表明,强制执行结构化的分层推理为细粒度视觉区分提供了一个强大且可转移的框架。
🔬 方法详解
问题定义:论文旨在解决细粒度视觉推理中,现有视觉-语言模型难以区分视觉相似物种的问题。现有方法通常直接进行物种分类,缺乏对中间层级(如属、科)特征的显式推理,导致模型决策过程不透明,且泛化能力较弱。
核心思路:论文的核心思路是将细粒度分类任务分解为分层推理过程,即先推理科、属等中间层级,再推理物种。通过强化学习,模型能够学习到在每个层级进行推理的最佳策略,从而提高分类准确性和可解释性。
技术框架:TaxonRL的技术框架主要包括以下几个模块:1)视觉特征提取模块:用于提取输入图像的视觉特征。2)分层推理模块:利用强化学习,逐步推理科、属、种等层级。3)奖励函数设计:设计中间奖励,鼓励模型在每个层级进行准确推理。4)策略优化模块:使用群体相对策略优化(Group Relative Policy Optimization)算法,优化模型策略。
关键创新:TaxonRL的关键创新在于:1)引入强化学习,将细粒度分类问题转化为序列决策问题。2)设计中间奖励,鼓励模型进行分层推理,提高可解释性。3)使用群体相对策略优化算法,提高强化学习的训练效率和稳定性。
关键设计:在奖励函数设计方面,论文为每个层级的推理都设置了奖励。如果模型在某个层级推理正确,则获得正奖励;否则,获得负奖励。此外,论文还使用了折扣因子,以平衡不同层级奖励的重要性。在网络结构方面,论文使用了Transformer作为视觉特征提取器,并设计了专门的策略网络,用于学习分层推理策略。
🖼️ 关键图片
📊 实验亮点
TaxonRL在Birds-to-Words数据集上取得了显著成果,平均准确率达到91.7%,超过了人类的77.3%。此外,该方法在灵长类动物和海洋物种验证任务中也表现出强大的跨领域泛化能力,证明了分层推理策略的有效性。
🎯 应用场景
TaxonRL具有广泛的应用前景,例如:1)生物多样性保护:辅助专家进行物种识别和分类。2)智能农业:识别农作物病虫害。3)医学诊断:辅助医生进行疾病诊断。该研究的实际价值在于提高细粒度视觉识别的准确性和可解释性,未来可能促进相关领域智能化发展。
📄 摘要(原文)
Traditional vision-language models struggle with contrastive fine-grained taxonomic reasoning, particularly when distinguishing between visually similar species within the same genus or family. We introduce TaxonRL, a reinforcement learning approach using Group Relative Policy Optimization with intermediate rewards that decomposes the reasoning process into hierarchical taxonomic predictions. Our method incentivizes models to explicitly reason about species-level, genus-level, and family-level features before making final classifications. This structured approach is designed not only to boost accuracy but also to yield a transparent, verifiable decision-making process. On the challenging Birds-to-Words dataset, TaxonRL achieves 91.7\% average accuracy, exceeding human performance (77.3\%) while generating interpretable reasoning traces. We demonstrate strong cross-domain generalization, showing substantial gains in primate and marine species verification. Our results establish that enforcing structured, hierarchical reasoning provides a powerful and transferable framework for fine-grained visual discrimination.