用于高效的基于变换器的语音识别的不绑定位置编码

用于高效的基于变换器的语音识别的不绑定位置编码
2023年4月25日
研究

自我注意已经成为端到端(E2E)自动语音识别(ASR)的一个重要组成部分。带有相对位置编码(RPE)的卷积-增强变换器(Conformer)取得了最先进的性能。本文提出了一种位置编码(PE)机制,称为Scaled Untied RPE,它在自我注意计算中把特征-位置相关性结合起来,并使用不同的投影矩阵分别计算特征相关性和位置相关性。此外,我们建议将特征相关与位置相关进行缩放,这种乘法互动的积极性可以用一个称为振幅的参数来计算。此外,我们表明,PE矩阵可以被切片以减少模型参数。我们在国家语音语料库(NSC)上的研究结果表明,与Conformer基线相比,带有Scaled Untied RPE的Transformer编码器在准确度上实现了1.9%的相对改善,在延迟上实现了高达50.9%的改善。

用于高效的基于变换器的语音识别的不绑定位置编码