基于子空间的LSTM声学模型序列判别训练与前馈层的关系

2018年11月1日

最先进的自动语音识别（ASR）系统使用序列判别训练来提高性能，而不是帧级交叉熵（CE）标准。尽管序列判别训练改善了长短期记忆（LSTM）递归神经网络（RNN）声学模型（AMs），但由于过度拟合，这些系统是否达到了最佳性能还不清楚。本文研究了状态级最小贝叶斯风险（sMBR）训练对LSTM AMs的影响，并表明通过更新所有LSTM参数进行sMBR的传统方式并不是最优的。我们研究了两种方法来提高LSTM AMs的序列判别训练的性能。首先，在最后一个LSTM层和输出层之间加入了更多的前馈（FF）层，因此这些额外的FF层可能更适合于sMBR训练。其次，在对AM的LSTM层进行sMBR时，子空间被估计为rank-1矩阵的内插。我们的方法在基准的AMI单一距离麦克风（SDM）任务中进行了评估。我们发现，所提出的方法比强sMBR训练的LSTM基线有1.6%的绝对改善。

林潤生博士

首席科学家和首席技术官

工程学士。(2005), Ph.D. (2010), HKU.IEEE的高级会员。Croucher研究员。香港大学电子工程系兼职助理教授。加州大学伯克利分校博士后。香港浸会大学和香港大学研究助理教授。

基于子空间的LSTM声学模型序列判别训练与前馈层的关系

林潤生博士

最新文章

演讲者日志化：它对语音到文本的准确转录有何重要意义

利用大型语言模型发现多语言意图