Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding
作者: Junhan Chen, Zilu Zhou, Yujun Tong, Dongliang Chang, Yitao Luo, Zhanyu Ma
分类: cs.CV
发布日期: 2026-03-04
💡 一句话要点
提出知识增强的细粒度推理Agent(KFRA),解决开放集细粒度视觉理解问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 细粒度视觉理解 知识增强 开放集学习 多模态推理 证据驱动 检索定位耦合 可解释性
📋 核心要点
- 现有细粒度视觉理解方法在开放集和上下文依赖场景下表现不佳,主要受限于封闭集分类和单标签预测。
- KFRA通过三阶段闭环推理,模拟专家分析,将细粒度感知转化为证据驱动的推理,实现知识与视觉证据的对齐。
- 在FGExpertBench基准测试中,KFRA显著优于现有方法,推理准确性提升高达19%,并提供基于证据的可解释性。
📝 摘要(中文)
细粒度视觉理解正从静态分类转向知识增强推理,模型不仅要识别,还要能给出理由。现有方法受限于封闭集分类和单标签预测,在开放集或上下文相关条件下性能显著下降。我们提出了知识增强的细粒度推理Agent(KFRA),一个统一的框架,将细粒度感知转化为证据驱动的推理。KFRA通过一个三阶段的闭环推理运行,模拟专家分析。它首先执行开放词汇检测和网络规模检索以生成类别假设。然后,通过全局到局部的聚焦机制,将文本知识与视觉证据对齐,进行区分性区域定位。最后,它将所有多模态证据整合到一个大型多模态模型中,以执行可解释的推理。与将检索和推理视为独立过程的现有Agent不同,KFRA建立了检索-定位耦合,将检索到的知识转化为空间定位的证据进行验证。这种设计实现了跨不同细粒度场景的事实性、可解释性和任务无关的推理。为了评估这种能力,我们构建了FGExpertBench,一个旨在评估跨六个知识维度的推理深度和跨任务泛化能力的基准。大量实验表明,KFRA始终优于独立的LLM和当前的Agent框架,在推理准确性方面提高了高达19%,并在开放集细粒度视觉理解中提供了基于证据的可解释性。
🔬 方法详解
问题定义:现有细粒度视觉理解方法主要面临开放集场景下的泛化性问题。传统的细粒度分类方法依赖于预定义的类别体系,无法处理未知的类别或属性。此外,现有方法通常将检索和推理视为独立的步骤,忽略了检索到的知识与视觉证据之间的关联,导致推理过程缺乏可解释性。
核心思路:KFRA的核心思路是将细粒度视觉理解转化为一个证据驱动的推理过程,通过模拟专家分析的方式,利用外部知识来增强模型的感知能力。KFRA通过检索相关的知识,并将这些知识与视觉证据进行对齐,从而实现更准确、更可解释的推理。这种方法的核心在于建立检索到的知识与视觉证据之间的空间对应关系,从而将知识转化为可验证的证据。
技术框架:KFRA包含三个主要阶段:1) 开放词汇检测和网络规模检索:利用开放词汇检测器识别图像中的物体,并使用检索模型从网络上检索相关的知识。2) 区分性区域定位:通过全局到局部的聚焦机制,将检索到的文本知识与视觉证据对齐,从而定位图像中与知识相关的区域。3) 多模态推理:将所有多模态证据整合到一个大型多模态模型中,进行最终的推理。
关键创新:KFRA的关键创新在于建立了检索-定位耦合,将检索到的知识转化为空间定位的证据进行验证。与现有方法不同,KFRA不是简单地将检索到的知识作为额外的输入,而是将其与视觉证据进行对齐,从而将知识转化为可验证的证据。这种方法不仅提高了推理的准确性,还提供了可解释性。
关键设计:KFRA的关键设计包括:1) 全局到局部的聚焦机制:用于将文本知识与视觉证据对齐,从而定位图像中与知识相关的区域。2) 多模态融合策略:用于将视觉证据、文本知识和定位信息融合在一起,进行最终的推理。3) FGExpertBench基准:用于评估模型在开放集细粒度视觉理解任务中的性能。
📊 实验亮点
KFRA在FGExpertBench基准测试中表现出色,相较于现有的大型多模态模型和Agent框架,推理准确性提升高达19%。实验结果表明,KFRA能够有效地利用外部知识来增强模型的感知能力,并在开放集细粒度视觉理解任务中取得显著的性能提升。此外,KFRA还提供了基于证据的可解释性,使得模型的决策过程更加透明。
🎯 应用场景
KFRA具有广泛的应用前景,例如在生物多样性保护中,可以帮助识别和分类不同的动植物物种;在医学诊断中,可以辅助医生识别病理图像中的异常区域;在农业领域,可以用于识别农作物的病虫害。此外,该方法还可以应用于智能监控、自动驾驶等领域,提高系统的感知能力和决策能力。
📄 摘要(原文)
Fine-grained visual understanding is shifting from static classification to knowledge-augmented reasoning, where models must justify as well as recognise. Existing approaches remain limited by closed-set taxonomies and single-label prediction, leading to significant degradation under open-set or context-dependent conditions. We present the Knowledge-Augmented Fine-Grained Reasoning Agent (KFRA), a unified framework that transforms fine-grained perception into evidence-driven reasoning. KFRA operates through a three-stage closed reasoning loop that emulates expert analysis. It first performs open-vocabulary detection and web-scale retrieval to generate category hypotheses. It then conducts discriminative regions localisation by aligning textual knowledge with visual evidence through a global-to-local focusing mechanism. Finally, it integrates all multimodal evidence within a large multimodal model to perform interpretable reasoning. Unlike existing agents that treat retrieval and reasoning as independent processes, KFRA establishes a retrieval-grounding coupling that converts retrieved knowledge into spatially grounded evidence for verification. This design enables factual, interpretable, and task-agnostic reasoning across diverse fine-grained scenarios. To evaluate this capability, we construct FGExpertBench, a benchmark designed to assess reasoning depth and cross-task generalisation across six knowledge dimensions. Extensive experiments demonstrate that KFRA consistently surpasses both standalone large multimodal models and current agent frameworks, achieving up to 19 percent improvement in reasoning accuracy and delivering evidence-grounded interpretability in open-set fine-grained visual understanding.