MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning

作者: Zhaopeng Feng, Yupu Liang, Shaosheng Cao, Jiayuan Su, Jiahan Ren, Zhe Xu, Yao Hu, Wenxuan Huang, Jian Wu, Zuozhu Liu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-26

备注: Work in progress

💡 一句话要点

提出MT³框架以解决文本图像机器翻译中的多任务挑战

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本图像翻译 多任务学习 强化学习 多模态大语言模型 社交媒体翻译 光学字符识别 上下文推理

📋 核心要点

TIMT面临的核心问题是现有方法在光学字符识别和视觉-文本推理方面的不足，导致翻译质量不高。
本文提出的MT³框架通过多任务强化学习，针对文本识别、上下文推理和翻译进行优化，提升了TIMT的整体性能。
实验结果显示，MT³-7B-Zero在MIT-10M基准上超越了Qwen2.5-VL-72B和InternVL2.5-78B等强基线，表现出色。

📝 摘要（中文）

文本图像机器翻译（TIMT）是将图像中嵌入的文本内容进行翻译的任务，对于无障碍访问、跨语言信息获取和实际文档理解至关重要。然而，由于需要准确的光学字符识别（OCR）、稳健的视觉-文本推理和高质量翻译，TIMT仍然面临复杂挑战。为了解决这一问题，本文提出了MT³框架，首次将多任务强化学习应用于多模态大语言模型（MLLMs）以实现端到端的TIMT。MT³采用多任务优化范式，针对文本识别、上下文感知推理和翻译三个关键子技能进行训练，使用新颖的多混合奖励机制，提供细粒度的非二元反馈。此外，本文还引入了XHSPost社交媒体TIMT基准，以便在真实的跨文化社交媒体环境中评估TIMT。MT³-7B-Zero在最新的MIT-10M基准上取得了领先结果，超越了多个强基线模型。

🔬 方法详解

问题定义：本文旨在解决文本图像机器翻译（TIMT）中的多任务挑战，现有方法在处理光学字符识别、视觉-文本推理和翻译时常常需要复杂的多阶段管道，导致效率低下和翻译质量不佳。

核心思路：MT³框架通过引入多任务强化学习，针对TIMT的三个关键子任务进行联合优化，旨在提升模型的整体性能和适应性。该设计使得模型能够在不同任务间共享知识，从而提高翻译的准确性和流畅性。

技术框架：MT³的整体架构包括三个主要模块：文本识别模块、上下文感知推理模块和翻译模块。通过多任务学习，这些模块能够协同工作，优化最终的翻译结果。模型使用新颖的多混合奖励机制进行训练，以适应TIMT的复杂性。

关键创新：MT³的主要创新在于将多任务强化学习应用于TIMT，首次实现了端到端的翻译过程。与传统方法相比，该框架能够提供细粒度的反馈，促进模型在多个任务上的协同学习。

关键设计：模型采用了适应性奖励机制，结合规则基础的强化学习策略，确保在训练过程中能够有效地处理不同任务的复杂性。损失函数设计上，考虑了各个子任务的特性，确保模型在训练时能够平衡各项任务的优化。

📊 实验亮点

MT³-7B-Zero在MIT-10M基准上取得了领先的实验结果，超越了Qwen2.5-VL-72B和InternVL2.5-78B等强基线，提升幅度显著，展示了其在多任务学习和强化学习方面的优势。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容翻译、跨文化信息获取和无障碍技术等。通过提升文本图像机器翻译的准确性和效率，MT³框架能够在多种实际场景中提供更好的用户体验，促进信息的无障碍传播和理解。

📄 摘要（原文）

Text Image Machine Translation (TIMT)-the task of translating textual content embedded in images-is critical for applications in accessibility, cross-lingual information access, and real-world document understanding. However, TIMT remains a complex challenge due to the need for accurate optical character recognition (OCR), robust visual-text reasoning, and high-quality translation, often requiring cascading multi-stage pipelines. Recent advances in large-scale Reinforcement Learning (RL) have improved reasoning in Large Language Models (LLMs) and Multimodal LLMs (MLLMs), but their application to end-to-end TIMT is still underexplored. To bridge this gap, we introduce MT$^{3}$, the first framework to apply Multi-Task RL to MLLMs for end-to-end TIMT. MT$^{3}$ adopts a multi-task optimization paradigm targeting three key sub-skills: text recognition, context-aware reasoning, and translation. It is trained using a novel multi-mixed reward mechanism that adapts rule-based RL strategies to TIMT's intricacies, offering fine-grained, non-binary feedback across tasks. Furthermore, to facilitate the evaluation of TIMT in authentic cross-cultural and real-world social media contexts, we introduced XHSPost, the first social media TIMT benchmark. Our MT$^{3}$-7B-Zero achieves state-of-the-art results on the latest in-domain MIT-10M benchmark, outperforming strong baselines such as Qwen2.5-VL-72B and InternVL2.5-78B by notable margins across multiple metrics. Additionally, the model shows strong generalization to out-of-distribution language pairs and datasets. In-depth analyses reveal how multi-task synergy, reinforcement learning initialization, curriculum design, and reward formulation contribute to advancing MLLM-driven TIMT.

MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册