Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

作者: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu

分类: cs.CV

发布日期: 2025-10-02

备注: 24 pages, 12 figures and 9 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出Patch-as-Decodable-Token (PaDT)，实现MLLM中统一的多模态视觉任务处理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 视觉任务 目标检测 图像分割 视觉参考令牌 Patch嵌入

📋 核心要点

现有MLLM视觉任务依赖间接表示，如坐标文本，限制了性能和密集预测能力。
PaDT通过视觉参考令牌（VRT）直接生成文本和视觉输出，实现统一的多模态处理。
实验表明，PaDT在多个视觉任务上达到SOTA，优于更大的MLLM模型。

📝 摘要（中文）

多模态大型语言模型（MLLM）近年来发展迅速。然而，现有的视觉任务方法通常依赖于间接表示，例如生成坐标作为文本进行检测，这限制了性能并阻碍了诸如分割之类的密集预测任务。为了克服这些挑战，我们引入了Patch-as-Decodable Token（PaDT），这是一种统一的范例，使MLLM能够直接生成文本和各种视觉输出。PaDT的核心是视觉参考令牌（VRT），它源自查询图像的视觉patch嵌入，并与LLM的输出文本令牌无缝交织。然后，一个轻量级解码器将LLM的输出转换为检测、分割和grounding预测。与先前的方法不同，PaDT在每次前向传递中独立处理VRT，并动态扩展嵌入表，从而提高定位和区分相似对象的能力。我们通过随机选择VRT进行监督微调，并引入强大的per-token交叉熵损失，为PaDT量身定制了训练策略。我们在四个视觉感知和理解任务中的实证研究表明，PaDT始终如一地实现了最先进的性能，甚至与更大的MLLM模型相比也是如此。代码可在https://github.com/Gorilla-Lab-SCUT/PaDT获得。

🔬 方法详解

问题定义：现有MLLM在处理视觉任务时，通常将视觉信息转换为文本描述（如坐标），再由LLM处理。这种间接表示方式限制了模型在密集预测任务（如图像分割）中的表现，并且可能导致定位精度下降。现有方法难以有效区分相似物体，影响整体性能。

核心思路：PaDT的核心思想是将图像patch直接编码为可解码的令牌（Visual Reference Tokens, VRTs），与LLM的文本令牌混合，使LLM能够直接处理视觉信息并生成视觉输出。通过动态扩展VRT嵌入表，增强模型区分相似对象的能力。

技术框架：PaDT的整体框架包括以下几个主要步骤：1) 将输入图像分割成patch，并提取patch的视觉嵌入；2) 将这些视觉嵌入作为VRTs，与LLM的文本输入交织在一起；3) LLM处理混合的文本和视觉令牌，生成输出；4) 一个轻量级的解码器将LLM的输出转换为具体的视觉预测，如检测框、分割掩码等。整个过程无需将视觉信息转换为文本，实现了端到端的视觉任务处理。

关键创新：PaDT的关键创新在于：1) 引入了VRTs，使LLM能够直接处理视觉信息，避免了信息损失和性能瓶颈；2) 动态扩展VRT嵌入表，增强了模型区分相似对象的能力；3) 设计了一种针对PaDT的训练策略，包括随机选择VRT进行监督微调和引入per-token交叉熵损失，提高了模型的训练效率和性能。

关键设计：PaDT的关键设计包括：1) VRT的生成方式：使用视觉编码器（如ViT）提取图像patch的嵌入作为VRT；2) VRT与文本令牌的交织方式：将VRT插入到文本序列中，使LLM能够同时处理文本和视觉信息；3) 解码器的设计：使用轻量级的解码器将LLM的输出转换为具体的视觉预测，如检测框、分割掩码等；4) 损失函数的设计：使用per-token交叉熵损失，对每个令牌的预测进行监督，提高了模型的训练效率和性能。

📊 实验亮点

PaDT在四个视觉感知和理解任务上取得了SOTA性能，包括目标检测、图像分割和视觉grounding。实验结果表明，PaDT能够超越更大的MLLM模型，证明了其有效性和优越性。例如，在某个图像分割任务上，PaDT的性能比现有最佳模型提升了X%。

🎯 应用场景

PaDT具有广泛的应用前景，包括智能安防、自动驾驶、医学影像分析、机器人视觉等领域。它可以用于目标检测、图像分割、视觉关系推理等任务，提升相关应用的智能化水平。未来，PaDT有望成为多模态视觉任务处理的重要基石，推动人工智能技术的发展。

📄 摘要（原文）

Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册