CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
作者: Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan
分类: cs.CV, cs.AI
发布日期: 2026-01-05
💡 一句话要点
CogFlow:通过知识内化桥接感知与推理,解决视觉数学问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉数学问题求解 知识内化 多模态学习 认知推理 视觉感知 奖励模型 策略优化
📋 核心要点
- 现有视觉数学问题求解方法侧重视觉信息提取,忽略了视觉线索在推理中的整合与利用。
- CogFlow框架模拟人类认知流程,通过知识内化阶段桥接感知与推理,提升模型性能。
- 实验表明,CogFlow在视觉数学推理基准上表现优异,验证了其有效性。
📝 摘要(中文)
多模态大语言模型在视觉数学问题求解方面仍面临挑战。现有工作虽关注视觉感知瓶颈,但仅限于改进视觉输入的提取和解释,忽略了提取的视觉线索是否被忠实整合并用于后续推理的关键问题。为此,我们提出了CogFlow,一个受认知启发的三阶段框架,包含知识内化阶段,显式地模拟人类推理的层次流程:感知→内化→推理。我们全面地增强了所有阶段。我们设计了协同视觉奖励,以提升参数和语义空间中的感知能力,共同改进从符号和图表中提取视觉信息。为了保证提取的视觉线索忠实地整合到后续推理中,我们在内化阶段引入了知识内化奖励模型,桥接感知和推理。此外,我们设计了一种视觉门控策略优化算法,以进一步加强推理与视觉知识的关联,防止模型寻找看似连贯但视觉上无根据的推理链的捷径。我们还贡献了一个新的数据集MathCog用于模型训练,其中包含超过12万个高质量的感知-推理对齐的标注样本。在常用的视觉数学推理基准上的综合实验和分析验证了所提出的CogFlow的优越性。
🔬 方法详解
问题定义:论文旨在解决视觉数学问题求解中,多模态大语言模型对视觉信息利用不足的问题。现有方法主要关注视觉信息的提取,但忽略了如何将提取到的视觉信息有效地整合到后续的推理过程中,导致模型无法充分利用视觉信息进行准确的数学推理。
核心思路:论文的核心思路是模拟人类的认知过程,将视觉数学问题求解过程分解为感知、内化和推理三个阶段。通过显式地知识内化阶段,将提取到的视觉信息进行整合和理解,并将其转化为模型可以有效利用的知识表示,从而提高模型在推理阶段的准确性和可靠性。
技术框架:CogFlow框架包含三个主要阶段:感知阶段、知识内化阶段和推理阶段。在感知阶段,模型从视觉输入中提取相关的符号和图表信息。在知识内化阶段,模型将提取到的视觉信息进行整合和理解,并将其转化为知识表示。在推理阶段,模型利用内化后的知识进行数学推理,最终得到问题的答案。
关键创新:CogFlow的关键创新在于引入了知识内化阶段,显式地模拟了人类的认知过程。此外,论文还提出了协同视觉奖励和知识内化奖励模型,以提升感知和内化阶段的性能。视觉门控策略优化算法则用于加强推理与视觉知识的关联,防止模型寻找视觉上无根据的推理捷径。
关键设计:协同视觉奖励包括参数空间和语义空间两个方面,旨在提升模型对符号和图表的感知能力。知识内化奖励模型用于评估内化阶段生成的知识表示的质量,并指导模型的训练。视觉门控策略优化算法通过引入视觉门控机制,限制模型在推理过程中只能使用与视觉信息相关的知识。
🖼️ 关键图片
📊 实验亮点
CogFlow在多个视觉数学推理基准测试中取得了显著的性能提升。例如,在MathCog数据集上,CogFlow相较于现有方法取得了显著的提升(具体数值待补充,原文未提供)。实验结果表明,CogFlow能够更有效地利用视觉信息进行数学推理,验证了其有效性。
🎯 应用场景
CogFlow框架可应用于各种需要视觉信息辅助的数学问题求解场景,例如自动阅卷、智能教育辅导等。该研究有助于提升AI在复杂视觉场景下的推理能力,推动人工智能在教育、科研等领域的应用。
📄 摘要(原文)
Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perception$\Rightarrow$internalization$\Rightarrow$reasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.