MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

作者: Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani

分类: cs.CL

发布日期: 2025-09-09 (更新: 2025-11-10)

备注: under submission

💡 一句话要点

MERLIN：多阶段课程对齐框架，提升跨语言推理中多语言编码器-LLM集成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言推理 低资源语言 课程学习 模型堆叠 DoRA 多语言编码器 LLM集成

📋 核心要点

现有编码器-解码器方法在低资源语言的复杂推理任务中表现不佳，限制了多语言LLM的应用。
MERLIN采用两阶段模型堆叠和课程学习策略，从通用双语数据到特定任务数据逐步训练，并仅微调少量DoRA权重。
实验表明，MERLIN在AfriMGSM上显著优于MindMerger和GPT-4o-mini，并在MGSM和MSVAMP上取得一致提升。

📝 摘要（中文）

大型语言模型在英语方面表现出色，但在许多低资源语言（LRL）中进行复杂的推理仍然存在困难。现有的编码器-解码器方法，如LangBridge和MindMerger，提高了中高资源语言的准确性，但在低资源语言上仍然存在很大的差距。我们提出了MERLIN，一个两阶段模型堆叠框架，它应用课程学习策略——从一般的双语平行语料到特定任务的数据——并且只调整一小部分DoRA权重。在AfriMGSM基准测试中，MERLIN的精确匹配准确率比MindMerger提高了+12.9个百分点，并且优于GPT-4o-mini。它还在MGSM和MSVAMP上产生了持续的收益（+0.9和+2.8个百分点），证明了其在低资源和高资源环境中的有效性。

🔬 方法详解

问题定义：论文旨在解决低资源语言（LRLs）在复杂推理任务中，现有编码器-解码器模型性能不足的问题。现有方法如LangBridge和MindMerger虽然在中高资源语言上有所提升，但在LRLs上仍存在显著差距，无法充分利用LLM的推理能力。

核心思路：MERLIN的核心思路是利用课程学习策略，从易到难地训练模型，首先利用通用双语数据进行预训练，然后逐步过渡到特定任务的数据。通过这种方式，模型可以更好地学习跨语言的知识表示，并适应特定任务的需求。同时，采用DoRA（Decomposed Low-Rank Adaptation）方法，仅微调少量权重，降低了训练成本，并避免了过拟合。

技术框架：MERLIN是一个两阶段的模型堆叠框架。第一阶段，使用双语平行语料训练一个跨语言编码器，使其能够将不同语言的输入映射到统一的语义空间。第二阶段，将编码器的输出作为LLM的输入，利用特定任务的数据进行微调。整个框架采用课程学习策略，逐步增加训练数据的难度。

关键创新：MERLIN的关键创新在于多阶段课程对齐和DoRA权重调整。课程对齐使得模型能够从通用知识逐步学习到特定任务的知识，提高了模型的泛化能力。DoRA方法通过分解权重矩阵，仅微调少量低秩矩阵，显著降低了训练成本，并避免了过拟合。

关键设计：MERLIN的关键设计包括：1) 使用大规模双语平行语料进行预训练；2) 采用课程学习策略，逐步增加训练数据的难度；3) 使用DoRA方法，仅微调少量权重；4) 设计合适的损失函数，以优化模型的跨语言表示能力和推理能力。具体的参数设置和网络结构细节在论文中进行了详细描述（未知）。

📊 实验亮点

MERLIN在AfriMGSM基准测试中，精确匹配准确率比MindMerger提高了+12.9个百分点，并且优于GPT-4o-mini。此外，在MGSM和MSVAMP数据集上也取得了持续的收益（+0.9和+2.8个百分点），证明了其在低资源和高资源环境中的有效性。这些实验结果表明，MERLIN在跨语言推理任务中具有显著的优势。

🎯 应用场景

MERLIN框架可应用于各种跨语言推理任务，例如机器翻译、跨语言问答、多语言文本摘要等。该研究成果有助于提升低资源语言的自然语言处理能力，促进全球范围内的信息交流和知识共享。未来，该方法可以扩展到更多语言和任务，并与其他技术相结合，进一步提升跨语言推理的性能。

📄 摘要（原文）

Large language models excel in English but still struggle with complex reasoning in many low-resource languages (LRLs). Existing encoder-plus-decoder methods such as LangBridge and MindMerger raise accuracy on mid and high-resource languages, yet they leave a large gap on LRLs. We present MERLIN, a two-stage model-stacking framework that applies a curriculum learning strategy -- from general bilingual bitext to task-specific data -- and adapts only a small set of DoRA weights. On the AfriMGSM benchmark MERLIN improves exact-match accuracy by +12.9 pp over MindMerger and outperforms GPT-4o-mini. It also yields consistent gains on MGSM and MSVAMP (+0.9 and +2.8 pp), demonstrating effectiveness across both low and high-resource settings.

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册