使用Gumbel-Greedy解码的神经机器翻译

使用Gumbel-Greedy解码的神经机器翻译
李安国教授
2022年10月5日
研究

以前的神经机器翻译模型使用一些启发式搜索算法(如波束搜索),以避免在测试时解决翻译句子的最大后验问题。在本文中,我们提出了Gumbel-Greedy Decoding,它训练了一个生成网络来预测训练过的模型下的翻译。我们使用Gumbel-Softmax再参数化来解决这样的问题,这使得我们的生成网络可以通过标准的随机梯度方法进行区分和训练。我们通过经验证明,我们提出的模型对于生成离散词的序列是有效的。

使用Gumbel-Greedy解码的神经机器翻译

麻省理工学院学士丶硕士丶博士;香港大学电子工程系首席教授;清华大学长江学者;IEEE院士,香港工程科学院院士;香港特别行政区铜紫荆勋章获得者。