用自回归预训练改进非自回归ASR

2023年4月25日

自回归（AR）自动语音识别（ASR）模型对每个输出标记的预测都以先前的标记为条件，这降低了其推理速度。另一方面，非自回归（NAR）模型在恒定的解码迭代次数内独立并同时预测标记，这带来了高推理速度。然而，非回归模型的准确度通常低于AR模型。在这项工作中，我们提出对NAR编码器进行AR预训练，以减少AR和NAR模型之间的准确性差距。实验结果表明，我们的AR预训练MaskCTC在Aishell-1上达到了与AR Conformer相同的准确度（都是4.9%的CER），并且在LibriSpeech上与AR Conformer的性能差距相对减少了50%。此外，我们的AR-retrained MaskCTC只需要单次解码迭代，这使推理时间减少了50%。我们还研究了在训练MaskCTC的掩码语言模型时的多种掩码策略。

用自回归预训练改进非自回归ASR

最新文章

有光科技获得IMDA认证

有光科技宣布我们的 B 轮融资