See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

作者: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang

分类: cs.CV

发布日期: 2025-12-26

💡 一句话要点

提出双向感知塑形方法以提升多模态推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 多模态推理 双向感知塑形 KL一致性 细粒度视觉证据 跨领域泛化 智能问答 图像理解

📋 核心要点

现有的视觉-语言模型在推理过程中未能充分利用细粒度的视觉证据，导致泛化能力不足和推理时间成本高。
本文提出双向感知塑形（BiPS），通过引入KL一致性和KL分离约束，增强模型对视觉信息的依赖，改善推理效果。
在八个基准测试中，BiPS平均提升了Qwen2.5-VL-7B模型8.2%的性能，且在未见数据集上表现出色，显示出良好的泛化能力。

📝 摘要（中文）

大型视觉-语言模型（VLMs）通常依赖中间视觉线索，但现有方法忽视了细粒度的视觉证据，且在不同领域的泛化能力较差，推理时间成本高。本文提出了双向感知塑形（BiPS），通过将问题条件下的遮蔽视图转化为双向的关注信号，来塑造训练过程中的感知。BiPS首先在原始图像与保留证据的视图之间施加KL一致性约束，以鼓励对支持像素的粗略但完整覆盖。然后，它在原始图像与证据消融视图之间施加KL分离约束，以防止仅依赖文本的快捷回答，并强化对细粒度视觉信息的依赖。实验表明，BiPS在八个基准测试中平均提升了Qwen2.5-VL-7B模型8.2%的性能，并在未见数据集和图像类型上展现出强大的跨领域泛化能力。

🔬 方法详解

问题定义：本文旨在解决现有视觉-语言模型在推理过程中对细粒度视觉证据的忽视，导致的泛化能力不足和高推理时间成本的问题。

核心思路：论文提出的双向感知塑形（BiPS）方法，通过对问题条件下的遮蔽视图进行双向信号塑形，鼓励模型在训练中更好地依赖视觉信息。

技术框架：BiPS的整体架构包括两个主要阶段：首先施加KL一致性约束以保持问题相关区域的完整覆盖，其次施加KL分离约束以消除关键像素，防止文本快捷回答。

关键创新：BiPS的核心创新在于引入了双向的关注信号塑形机制，通过KL一致性和KL分离约束，显著提升了模型对视觉信息的依赖程度，与传统方法相比，能够更好地处理细粒度视觉证据。

关键设计：在设计中，采用了KL一致性和KL分离作为损失函数，确保模型在训练过程中既能覆盖支持像素，又能避免仅依赖文本信息。

🖼️ 关键图片

📊 实验亮点

实验结果显示，BiPS在八个基准测试中平均提升了Qwen2.5-VL-7B模型8.2%的性能，尤其在未见数据集和不同图像类型上展现出强大的跨领域泛化能力，显著优于传统方法。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、图像理解和多模态交互等。通过提升模型对细粒度视觉信息的依赖，BiPS可以在更复杂的多模态任务中表现出更高的准确性和鲁棒性，未来可能推动相关领域的技术进步。

📄 摘要（原文）

Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册