FANOVATION 2023 成功邀请 80 多位高层管理人员参与生成式人工智能讨论
2023年10月31日
现有的神经机器翻译方法将每个输出词都置于先前生成的输出上。我们引入了一个模型,该模型避免了这种自回归特性,并以并行方式产生其输出,使推理过程中的延迟降低了一个数量级。通过知识提炼、使用输入令牌肥度作为潜变量以及政策梯度微调,我们以相对于用作教师的自回归变压器网络的2.0个BLEU点的代价实现了这一目标。我们展示了与我们训练策略的三个方面相关的大量累积改进,并在IWSLT 2016英德语和两个WMT语言对上验证了我们的方法。通过在推理时平行采样,我们的非自回归模型在WMT 2016英语-罗马尼亚语上取得了接近最先进的性能,即29.8 BLEU。