PHRASED: Phrase Dictionary Biasing for Speech Translation
作者: Peidong Wang, Jian Xue, Rui Zhao, Junkun Chen, Aswin Shanmugam Subramanian, Jinyu Li
分类: cs.CL, cs.AI, cs.SD, eess.AS
发布日期: 2025-06-10
💡 一句话要点
提出短语字典偏置方法以解决语音翻译中的短语翻译挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音翻译 短语翻译 字典偏置 多模态模型 机器翻译
📋 核心要点
- 核心问题:现有语音翻译方法在短语翻译上面临稀有短语导致的翻译准确性不足问题。
- 方法要点:提出短语字典偏置方法,通过源语言与目标语言的短语映射来增强翻译模型的短语翻译能力。
- 实验或效果:实验结果显示,该方法在流式语音翻译模型上相较于传统方法提升了21%的性能,并在多模态模型中实现了85%的短语召回率提升。
📝 摘要(中文)
短语在对话中理解核心概念至关重要。然而,由于训练数据中短语的稀有性,语音翻译任务中的短语翻译仍然面临挑战。本文提出了一种短语字典偏置方法,利用源语言与目标语言之间的短语映射对。我们将该方法应用于两种广泛采用的模型:基于转换器的流式语音翻译模型和多模态大语言模型。实验结果表明,短语字典偏置方法在流式语音翻译模型中相较于短语列表偏置提高了21%的性能。此外,该方法使多模态大语言模型能够利用外部短语信息,实现了85%的短语召回率提升。
🔬 方法详解
问题定义:本文旨在解决语音翻译任务中短语翻译的挑战,尤其是由于短语在训练数据中的稀有性,导致翻译准确性不足的问题。现有方法往往依赖于短语列表偏置,但效果有限。
核心思路:论文提出的短语字典偏置方法通过建立源语言与目标语言短语的映射关系,增强了模型对短语的理解和翻译能力。这种方法能够有效利用外部短语信息,提升翻译的准确性。
技术框架:该方法应用于两种模型:流式语音翻译模型和多模态大语言模型。整体流程包括短语字典的构建、模型训练时的偏置应用以及最终的翻译结果生成。
关键创新:最重要的创新点在于提出了短语字典偏置方法,显著优于传统的短语列表偏置,能够更好地利用短语信息进行翻译。
关键设计:在技术细节上,模型的损失函数经过调整,以更好地反映短语翻译的优先级。同时,短语字典的构建采用了数据驱动的方法,确保了短语映射的准确性和有效性。
📊 实验亮点
实验结果表明,短语字典偏置方法在流式语音翻译模型中相较于短语列表偏置提高了21%的性能。此外,该方法在多模态大语言模型中实现了85%的短语召回率提升,显示出显著的效果改善。
🎯 应用场景
该研究的潜在应用领域包括实时语音翻译、智能助手以及多语言交流平台等。通过提高短语翻译的准确性,该方法能够显著提升用户体验,促进跨语言沟通的流畅性。未来,该技术可能在多模态交互和人机协作中发挥更大作用。
📄 摘要(原文)
Phrases are essential to understand the core concepts in conversations. However, due to their rare occurrence in training data, correct translation of phrases is challenging in speech translation tasks. In this paper, we propose a phrase dictionary biasing method to leverage pairs of phrases mapping from the source language to the target language. We apply the phrase dictionary biasing method to two types of widely adopted models, a transducer-based streaming speech translation model and a multimodal large language model. Experimental results show that the phrase dictionary biasing method outperforms phrase list biasing by 21% relatively for the streaming speech translation model. In addition, phrase dictionary biasing enables multimodal large language models to use external phrase information, achieving 85% relative improvement in phrase recall.