基于子空间的LSTM声学模型序列判别训练与前馈层的关系

基于子空间的LSTM声学模型序列判别训练与前馈层的关系
林潤生博士
2022年10月5日
研究

最先进的自动语音识别(ASR)系统使用序列判别训练来提高性能,而不是帧级交叉熵(CE)标准。尽管序列判别训练改善了长短期记忆(LSTM)递归神经网络(RNN)声学模型(AMs),但由于过度拟合,这些系统是否达到了最佳性能还不清楚。本文研究了状态级最小贝叶斯风险(sMBR)训练对LSTM AMs的影响,并表明通过更新所有LSTM参数进行sMBR的传统方式并不是最优的。我们研究了两种方法来提高LSTM AMs的序列判别训练的性能。首先,在最后一个LSTM层和输出层之间加入了更多的前馈(FF)层,因此这些额外的FF层可能更适合于sMBR训练。其次,在对AM的LSTM层进行sMBR时,子空间被估计为rank-1矩阵的内插。我们的方法在基准的AMI单一距离麦克风(SDM)任务中进行了评估。我们发现,所提出的方法比强sMBR训练的LSTM基线有1.6%的绝对改善。

基于子空间的LSTM声学模型序列判别训练与前馈层的关系

工程学士。(2005), Ph.D. (2010), HKU.IEEE的高级会员。Croucher研究员。香港大学电子工程系兼职助理教授。加州大学伯克利分校博士后。香港浸会大学和香港大学研究助理教授。