FANOVATION 2023 成功邀请 80 多位高层管理人员参与生成式人工智能讨论
2023年10月31日
在本文中,我们提出了一种新的通用机器翻译方法,重点是具有有限数量平行数据的语言。我们提出的方法利用转移学习的方法,将多种源语言的词汇和句子层面的表述共享到一种目标语言中。词法部分是通过通用词法表示法来支持多语言的词级共享。句子层面的共享是通过一个来自所有源语言的专家模型来表示的,该模型与所有其他语言共享源编码器。这使得低资源语言能够利用高资源语言的词汇和句子表示。我们的方法能够在罗马尼亚-英语WMT2016上使用6千句的微小平行语料库达到23个BLEU,而使用多语言训练和回译的强大基线系统只有18个BLEU。此外,我们还表明,通过在零点设置中对预训练的多语言系统进行微调,拟议的方法可以在同一数据集上实现近20个BLEU。