Aligning Multilingual Reasoning with Verifiable Semantics from a High-Resource Expert Model

📄 arXiv: 2509.25543v1 📥 PDF

作者: Fahim Faisal, Kaiqiang Song, Song Wang, Simin Ma, Shujian Liu, Haoyun Deng, Sathish Reddy Indurthi

分类: cs.CL, cs.AI

发布日期: 2025-09-29


💡 一句话要点

提出PB-RLSVR框架,利用高资源专家模型提升多语言LLM的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言推理 强化学习 枢轴学习 语义相似度 跨语言迁移

📋 核心要点

  1. 现有强化学习方法提升LLM推理能力主要集中在英语,导致跨语言性能存在显著差距。
  2. 提出PB-RLSVR框架,利用高性能英语LLM作为枢轴,通过语义等价性奖励迁移推理能力。
  3. 实验表明,PB-RLSVR显著提升了Llama-3.1-8B-Instruct和Qwen3-32B的多语言推理性能。

📝 摘要(中文)

本文提出了一种名为基于枢轴的语义可验证奖励强化学习(PB-RLSVR)的新框架,旨在提升大型语言模型(LLM)的多语言推理能力,解决现有强化学习方法主要集中在英语上的性能差距问题。该方法利用高性能的英语LLM作为“枢轴”模型,为推理任务生成参考答案。然后,基于多语言模型响应与英语参考答案的语义等价性来奖励该模型,从而有效地将枢轴模型的推理能力迁移到其他语言。研究人员探索了几种跨语言语义奖励函数,包括基于嵌入和机器翻译的方法。在多语言推理基准测试上的大量实验表明,PB-RLSVR显著缩小了英语和其他语言之间的性能差距,大幅优于传统的PPO基线。具体而言,PB-RLSVR框架分别将Llama-3.1-8B-Instruct和Qwen3-32B的平均多语言性能提高了16.41%和10.17%,展示了一种强大且数据高效的方法来构建真正的多语言推理智能体。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在推理能力方面取得了显著进展,但这些进展主要集中在英语上。对于其他语言,由于缺乏高质量的标注数据,LLM的推理能力相对较弱,导致跨语言性能存在显著差距。因此,如何有效地提升LLM在多种语言上的推理能力是一个亟待解决的问题。

核心思路:本文的核心思路是利用一个高性能的英语LLM作为“枢轴”模型,将其强大的推理能力迁移到其他语言。具体来说,首先使用英语LLM为推理任务生成高质量的参考答案,然后通过比较多语言模型生成的答案与英语参考答案的语义相似度来评估多语言模型的性能,并以此作为奖励信号来训练多语言模型。这样,就可以避免直接在目标语言上标注大量数据的需求,从而实现数据高效的多语言推理能力提升。

技术框架:PB-RLSVR框架主要包含以下几个阶段:1) 枢轴模型生成参考答案:使用高性能的英语LLM对给定的推理任务生成参考答案。2) 多语言模型生成答案:使用待训练的多语言模型对相同的推理任务生成答案。3) 语义奖励计算:计算多语言模型生成的答案与英语参考答案之间的语义相似度,作为奖励信号。这里可以使用多种跨语言语义相似度计算方法,例如基于嵌入的方法或基于机器翻译的方法。4) 强化学习训练:使用强化学习算法(例如PPO)根据语义奖励信号来训练多语言模型,使其生成的答案在语义上更接近英语参考答案。

关键创新:该方法最重要的技术创新点在于利用了高资源语言(英语)的LLM来指导低资源语言的LLM进行推理能力学习,从而避免了在低资源语言上标注大量数据的需求。这种基于枢轴模型的强化学习方法可以有效地将高资源语言的知识迁移到低资源语言,从而提升LLM在多种语言上的推理能力。与传统的强化学习方法相比,PB-RLSVR不需要人工标注的奖励信号,而是通过语义相似度自动生成奖励信号,从而大大降低了训练成本。

关键设计:在语义奖励计算方面,论文探索了几种不同的方法,包括基于跨语言嵌入的方法和基于机器翻译的方法。基于嵌入的方法直接计算多语言模型生成的答案和英语参考答案的嵌入向量之间的相似度。基于机器翻译的方法首先将多语言模型生成的答案翻译成英语,然后再计算翻译后的答案与英语参考答案之间的相似度。在强化学习训练方面,论文使用了PPO算法,并对奖励函数进行了调整,以确保训练的稳定性和收敛性。具体的参数设置和损失函数细节在论文中有详细描述。

📊 实验亮点

实验结果表明,PB-RLSVR框架显著提升了LLM的多语言推理性能。具体而言,PB-RLSVR分别将Llama-3.1-8B-Instruct和Qwen3-32B的平均多语言性能提高了16.41%和10.17%,大幅优于传统的PPO基线。这些结果表明,PB-RLSVR是一种有效且数据高效的多语言推理能力提升方法。

🎯 应用场景

该研究成果可广泛应用于多语言智能客服、多语言机器翻译、跨语言信息检索等领域。通过提升LLM的多语言推理能力,可以更好地服务于全球用户,促进不同语言文化之间的交流与理解。未来,该方法可以进一步扩展到更多的语言和任务,构建更加通用和强大的多语言智能系统。

📄 摘要(原文)

While reinforcement learning has advanced the reasoning abilities of Large Language Models (LLMs), these gains are largely confined to English, creating a significant performance disparity across languages. To address this, we introduce Pivot-Based Reinforcement Learning with Semantically Verifiable Rewards (PB-RLSVR), a novel framework that enhances multilingual reasoning by circumventing the need for human-annotated data in target languages. Our approach employs a high-performing English LLM as a "pivot" model to generate reference responses for reasoning tasks. A multilingual model is then rewarded based on the semantic equivalence of its responses to the English reference, effectively transferring the pivot model's reasoning capabilities across languages. We investigate several cross-lingual semantic reward functions, including those based on embeddings and machine translation. Extensive experiments on a suite of multilingual reasoning benchmarks show that our method significantly narrows the performance gap between English and other languages, substantially outperforming traditional PPO baselines. Specifically, our PB-RLSVR framework improves the average multilingual performance of Llama-3.1-8B-Instruct and Qwen3-32B by 16.41% and 10.17%, respectively, demonstrating a powerful and data-efficient approach to building truly multilingual reasoning agents.