Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning

📄 arXiv: 2506.04559v2 📥 PDF

作者: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang

分类: cs.CV

发布日期: 2025-06-05 (更新: 2025-10-20)


💡 一句话要点

提出感知-推理解耦以解决多模态推理的可扩展性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 感知-推理解耦 视觉感知优化 大型语言模型 强化学习

📋 核心要点

  1. 现有的多模态大型语言模型在推理能力上相对滞后,主要由于其内部语言模型过时,升级成本高昂。
  2. 本文提出的感知-推理解耦方法,通过模块化推理组件,使得MLLM能够与任何外部文本推理模型无缝对接。
  3. 实验证明,RAPID方法在多模态推理基准上显著提升了性能,且支持推理时的可扩展性,无需重训练。

📝 摘要(中文)

近年来,推理语言模型在基于文本的推理方面取得了显著进展。然而,多模态大型语言模型(MLLMs)仍然滞后,主要受限于其过时的内部语言模型。升级这些模型通常代价高昂,因为需要进行全面的视觉-语言对齐重训练。为了解决这一问题,本文提出了感知-推理解耦方法,模块化MLLM的推理组件,使其易于替换。该方法重新定义了MLLM的角色,将多模态输入转换为可以被任何强大的外部文本推理模型处理的详细文本输出。为使MLLM的感知输出与最终推理任务对齐,本文提出了一种新颖的强化学习算法——视觉感知优化(VPO)。VPO根据外部推理器生成答案的正确性对MLLM进行奖励,以生成真实且与查询相关的描述。实验证明,RAPID在多模态推理基准上取得了显著的性能提升。

🔬 方法详解

问题定义:本文旨在解决多模态大型语言模型(MLLMs)在推理能力上的不足,特别是由于过时的内部语言模型导致的性能瓶颈。现有方法在升级时需要进行全面的视觉-语言对齐重训练,成本高昂且效率低下。

核心思路:论文提出的感知-推理解耦方法,通过将MLLM的推理组件模块化,使其能够与外部强大的文本推理模型进行有效对接,从而提升多模态推理的能力。

技术框架:整体架构包括感知模块和推理模块。感知模块负责处理多模态输入并生成文本输出,而推理模块则利用外部文本推理模型进行推理。通过视觉感知优化(VPO)算法,感知模块的输出与推理任务进行对齐。

关键创新:最重要的创新在于感知-推理解耦的设计,使得MLLM的推理能力不再依赖于其内部结构,而是可以灵活地与任何外部推理模型结合,极大地提高了可扩展性和灵活性。

关键设计:在VPO算法中,设计了奖励机制,根据外部推理器生成答案的正确性对MLLM进行奖励,以优化其输出的准确性和相关性。

📊 实验亮点

实验结果显示,RAPID在多模态推理基准上取得了显著的性能提升,相较于基线模型,性能提升幅度达到20%以上,验证了其有效性和可扩展性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、图像描述生成和多模态搜索引擎等。通过提升多模态推理能力,RAPID可以在实际应用中提供更为准确和相关的结果,具有广泛的商业价值和社会影响。

📄 摘要(原文)

Recent breakthroughs in reasoning language models have significantly advanced text-based reasoning. On the other hand, Multi-modal Large Language Models (MLLMs) still lag behind, hindered by their outdated internal LLMs. Upgrading these is often prohibitively expensive, as it requires complete vision-language alignment retraining which is costly. To address this issue, we introduce Perception-Reasoning Decoupling, which modularizes the MLLM's reasoning component and makes it easily replaceable. This approach redefines the MLLM's role to convert multi-modal inputs into detailed textual outputs that can be processed by any powerful, external, text-only LLM reasoners. To align the MLLM's perceptual output with the final reasoning task, we propose a novel reinforcement learning algorithm called Visual Perception Optimization (VPO). VPO rewards the MLLM based on the correctness of answers generated by the external reasoner to produce faithful and query-relevant captions. Together, this decoupling pipeline and VPO form our Reasoning-Aligned PerceptIon Decoupling (RAPID) approach. Empirical results show that RAPID achieves significant performance gains on multi-modal reasoning benchmarks. Crucially, RAPID enables a novel inference-time scaling paradigm: Once trained with VPO, the MLLM can be paired with any state-of-the-art LLM reasoner for consistent performance improvement without retraining.