用于神经机器翻译的可训练的贪婪解码法

用于神经机器翻译的可训练的贪婪解码法
李安国教授
2022年10月5日
研究

最近,神经机器翻译的研究主要集中在两个方面;神经网络架构和端到端学习算法。然而,解码问题在研究界受到的关注相对较少。在本文中,我们只关注给定一个经过训练的神经机器翻译模型的解码问题。我们没有试图为任何特定的解码目标建立一个新的解码算法,而是提出了可训练的解码算法的想法,其中我们训练一个解码算法来寻找一个最大化任意解码目标的翻译。更具体地说,我们设计了一个观察和操纵神经机器翻译解码器的隐藏状态的角色,并建议使用确定性策略梯度的变体来训练它。我们使用四种语言对和两个解码目标对所提议的算法进行了广泛的评估,并表明我们确实可以训练一个可训练的贪婪解码器,以最小的计算开销产生一个更好的翻译(就目标解码目标而言)。

用于神经机器翻译的可训练的贪婪解码法

麻省理工学院学士丶硕士丶博士;香港大学电子工程系首席教授;清华大学长江学者;IEEE院士,香港工程科学院院士;香港特别行政区铜紫荆勋章获得者。