MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

📄 arXiv: 2509.08105v3 📥 PDF

作者: Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani

分类: cs.CL

发布日期: 2025-09-09 (更新: 2025-11-10)

备注: under submission


💡 一句话要点

MERLIN:多阶段课程对齐框架,提升跨语言推理中多语言编码器-LLM集成效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言推理 低资源语言 课程学习 模型堆叠 DoRA 多语言编码器 LLM集成

📋 核心要点

  1. 现有编码器-解码器方法在低资源语言的复杂推理任务中表现不佳,限制了多语言LLM的应用。
  2. MERLIN采用两阶段模型堆叠和课程学习策略,从通用双语数据到特定任务数据逐步训练,并仅微调少量DoRA权重。
  3. 实验表明,MERLIN在AfriMGSM上显著优于MindMerger和GPT-4o-mini,并在MGSM和MSVAMP上取得一致提升。

📝 摘要(中文)

大型语言模型在英语方面表现出色,但在许多低资源语言(LRL)中进行复杂的推理仍然存在困难。现有的编码器-解码器方法,如LangBridge和MindMerger,提高了中高资源语言的准确性,但在低资源语言上仍然存在很大的差距。我们提出了MERLIN,一个两阶段模型堆叠框架,它应用课程学习策略——从一般的双语平行语料到特定任务的数据——并且只调整一小部分DoRA权重。在AfriMGSM基准测试中,MERLIN的精确匹配准确率比MindMerger提高了+12.9个百分点,并且优于GPT-4o-mini。它还在MGSM和MSVAMP上产生了持续的收益(+0.9和+2.8个百分点),证明了其在低资源和高资源环境中的有效性。

🔬 方法详解

问题定义:论文旨在解决低资源语言(LRLs)在复杂推理任务中,现有编码器-解码器模型性能不足的问题。现有方法如LangBridge和MindMerger虽然在中高资源语言上有所提升,但在LRLs上仍存在显著差距,无法充分利用LLM的推理能力。

核心思路:MERLIN的核心思路是利用课程学习策略,从易到难地训练模型,首先利用通用双语数据进行预训练,然后逐步过渡到特定任务的数据。通过这种方式,模型可以更好地学习跨语言的知识表示,并适应特定任务的需求。同时,采用DoRA(Decomposed Low-Rank Adaptation)方法,仅微调少量权重,降低了训练成本,并避免了过拟合。

技术框架:MERLIN是一个两阶段的模型堆叠框架。第一阶段,使用双语平行语料训练一个跨语言编码器,使其能够将不同语言的输入映射到统一的语义空间。第二阶段,将编码器的输出作为LLM的输入,利用特定任务的数据进行微调。整个框架采用课程学习策略,逐步增加训练数据的难度。

关键创新:MERLIN的关键创新在于多阶段课程对齐和DoRA权重调整。课程对齐使得模型能够从通用知识逐步学习到特定任务的知识,提高了模型的泛化能力。DoRA方法通过分解权重矩阵,仅微调少量低秩矩阵,显著降低了训练成本,并避免了过拟合。

关键设计:MERLIN的关键设计包括:1) 使用大规模双语平行语料进行预训练;2) 采用课程学习策略,逐步增加训练数据的难度;3) 使用DoRA方法,仅微调少量权重;4) 设计合适的损失函数,以优化模型的跨语言表示能力和推理能力。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。

📊 实验亮点

MERLIN在AfriMGSM基准测试中,精确匹配准确率比MindMerger提高了+12.9个百分点,并且优于GPT-4o-mini。此外,在MGSM和MSVAMP数据集上也取得了持续的收益(+0.9和+2.8个百分点),证明了其在低资源和高资源环境中的有效性。这些实验结果表明,MERLIN在跨语言推理任务中具有显著的优势。

🎯 应用场景

MERLIN框架可应用于各种跨语言推理任务,例如机器翻译、跨语言问答、多语言文本摘要等。该研究成果有助于提升低资源语言的自然语言处理能力,促进全球范围内的信息交流和知识共享。未来,该方法可以扩展到更多语言和任务,并与其他技术相结合,进一步提升跨语言推理的性能。

📄 摘要(原文)

Large language models excel in English but still struggle with complex reasoning in many low-resource languages (LRLs). Existing encoder-plus-decoder methods such as LangBridge and MindMerger raise accuracy on mid and high-resource languages, yet they leave a large gap on LRLs. We present MERLIN, a two-stage model-stacking framework that applies a curriculum learning strategy -- from general bilingual bitext to task-specific data -- and adapts only a small set of DoRA weights. On the AfriMGSM benchmark MERLIN improves exact-match accuracy by +12.9 pp over MindMerger and outperforms GPT-4o-mini. It also yields consistent gains on MGSM and MSVAMP (+0.9 and +2.8 pp), demonstrating effectiveness across both low and high-resource settings.