用自回归预训练改进非自回归ASR

用自回归预训练改进非自回归ASR
2023年4月25日
研究

自回归(AR)自动语音识别(ASR)模型对每个输出标记的预测都以先前的标记为条件,这降低了其推理速度。另一方面,非自回归(NAR)模型在恒定的解码迭代次数内独立并同时预测标记,这带来了高推理速度。然而,非回归模型的准确度通常低于AR模型。在这项工作中,我们提出对NAR编码器进行AR预训练,以减少AR和NAR模型之间的准确性差距。实验结果表明,我们的AR预训练MaskCTC在Aishell-1上达到了与AR Conformer相同的准确度(都是4.9%的CER),并且在LibriSpeech上与AR Conformer的性能差距相对减少了50%。此外,我们的AR-retrained MaskCTC只需要单次解码迭代,这使推理时间减少了50%。我们还研究了在训练MaskCTC的掩码语言模型时的多种掩码策略。

用自回归预训练改进非自回归ASR