极低资源语言的通用神经机器翻译

极低资源语言的通用神经机器翻译
李安国教授
2022年10月5日
研究

在本文中,我们提出了一种新的通用机器翻译方法,重点是具有有限数量平行数据的语言。我们提出的方法利用转移学习的方法,将多种源语言的词汇和句子层面的表述共享到一种目标语言中。词法部分是通过通用词法表示法来支持多语言的词级共享。句子层面的共享是通过一个来自所有源语言的专家模型来表示的,该模型与所有其他语言共享源编码器。这使得低资源语言能够利用高资源语言的词汇和句子表示。我们的方法能够在罗马尼亚-英语WMT2016上使用6千句的微小平行语料库达到23个BLEU,而使用多语言训练和回译的强大基线系统只有18个BLEU。此外,我们还表明,通过在零点设置中对预训练的多语言系统进行微调,拟议的方法可以在同一数据集上实现近20个BLEU。

极低资源语言的通用神经机器翻译

麻省理工学院学士丶硕士丶博士;香港大学电子工程系首席教授;清华大学长江学者;IEEE院士,香港工程科学院院士;香港特别行政区铜紫荆勋章获得者。