极低资源语言的通用神经机器翻译

2022年10月5日

在本文中，我们提出了一种新的通用机器翻译方法，重点是具有有限数量平行数据的语言。我们提出的方法利用转移学习的方法，将多种源语言的词汇和句子层面的表述共享到一种目标语言中。词法部分是通过通用词法表示法来支持多语言的词级共享。句子层面的共享是通过一个来自所有源语言的专家模型来表示的，该模型与所有其他语言共享源编码器。这使得低资源语言能够利用高资源语言的词汇和句子表示。我们的方法能够在罗马尼亚-英语WMT2016上使用6千句的微小平行语料库达到23个BLEU，而使用多语言训练和回译的强大基线系统只有18个BLEU。此外，我们还表明，通过在零点设置中对预训练的多语言系统进行微调，拟议的方法可以在同一数据集上实现近20个BLEU。

李安国教授

联合创始人兼主席

麻省理工学院学士丶硕士丶博士；香港大学电子工程系首席教授；清华大学长江学者；IEEE院士，香港工程科学院院士；香港特别行政区铜紫荆勋章获得者。

极低资源语言的通用神经机器翻译

李安国教授

最新文章

有光科技获得IMDA认证

有光科技宣布我们的 B 轮融资