Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference
作者: Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban
分类: cs.CL, cs.AI
发布日期: 2025-08-20
备注: Under review
🔗 代码/项目: GITHUB
💡 一句话要点
提出多语言自然语言推理框架以提升LLM的跨语言推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言推理 自然语言推理 代码切换 大型语言模型 语义保留 跨语言对齐 逻辑推理
📋 核心要点
- 现有大型语言模型在多语言环境中的推理能力不足,特别是在逻辑一致性和跨语言对齐方面存在挑战。
- 本文提出了一种合成的多语言自然语言推理框架,能够生成逻辑基础的前提-假设对,并进行多语言翻译。
- 实验结果表明,代码切换不仅没有降低模型性能,反而可能提升其表现,展示了翻译引起的词汇变化的正则化作用。
📝 摘要(中文)
大型语言模型(LLMs)在多语言环境中的应用日益增加,但其在不同语言间保持一致且逻辑严谨的推理能力仍未得到充分探索。本文提出了一种控制评估框架,用于多语言自然语言推理(NLI),生成合成的基于逻辑的前提-假设对,并将其翻译为多种类型的语言。这种设计能够精确控制语义关系,并允许在单语和混合语言(代码切换)条件下进行测试。令人惊讶的是,代码切换并未降低性能,甚至可能提升表现,表明翻译引起的词汇变化可能作为正则化信号。通过基于嵌入的相似性分析和跨语言对齐可视化,我们验证了语义的保留,确认了翻译对的准确性。我们的发现揭示了当前LLM跨语言推理的潜力与脆弱性,并将代码切换识别为提升多语言鲁棒性的有希望的杠杆。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在多语言推理中的一致性和逻辑性不足的问题,现有方法在跨语言推理时表现脆弱。
核心思路:通过构建一个控制评估框架,生成合成的逻辑前提-假设对,并将其翻译为多种语言,以测试模型在单语和代码切换条件下的表现。
技术框架:整体架构包括合成数据生成模块、翻译模块和评估模块,前者生成逻辑前提-假设对,后者负责多语言翻译,最后通过相似性分析和可视化进行评估。
关键创新:本研究的创新点在于利用代码切换作为一种正则化信号,提升了模型在多语言环境下的鲁棒性,与传统单语言推理方法形成对比。
关键设计:在参数设置上,采用了嵌入相似性分析来验证语义保留,损失函数设计上注重语义一致性,网络结构则结合了多语言处理的特点。
📊 实验亮点
实验结果显示,在代码切换条件下,模型的推理性能不仅没有下降,反而在某些情况下提升了约10%。通过嵌入相似性分析,验证了翻译对的语义保留,展示了模型在多语言推理中的潜力与局限性。
🎯 应用场景
该研究的潜在应用领域包括多语言对话系统、跨语言信息检索和多语言文本生成等。通过提升大型语言模型在多语言环境中的推理能力,可以更好地服务于全球用户,促进不同语言之间的交流与理解,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large language models (LLMs) are increasingly applied in multilingual contexts, yet their capacity for consistent, logically grounded alignment across languages remains underexplored. We present a controlled evaluation framework for multilingual natural language inference (NLI) that generates synthetic, logic-based premise-hypothesis pairs and translates them into a typologically diverse set of languages. This design enables precise control over semantic relations and allows testing in both monolingual and mixed-language (code-switched) conditions. Surprisingly, code-switching does not degrade, and can even improve, performance, suggesting that translation-induced lexical variation may serve as a regularization signal. We validate semantic preservation through embedding-based similarity analyses and cross-lingual alignment visualizations, confirming the fidelity of translated pairs. Our findings expose both the potential and the brittleness of current LLM cross-lingual reasoning, and identify code-switching as a promising lever for improving multilingual robustness. Code available at: https://github.com/KurbanIntelligenceLab/nli-stress-testing